Kanonisk analys

Inom statistik hör kanonisk analys (från antikens grekiska : κανων bar, mätstav , linjal) till familjen av regressionsmetoder för dataanalys. Regressionsanalys kvantifierar ett samband mellan en prediktorvariabel och en kriteriumvariabel med korrelationskoefficienten r , bestämningskoefficient r2 och standardregressionskoefficienten β ^. Multipel regressionsanalys uttrycker ett samband mellan en uppsättning prediktorvariabler och en enstaka kriteriumvariabel genom multipelkorrelationen R , multipel determinationskoefficient R² och en uppsättning standardpartiella regressionsvikter β ₁ , β ₂ etc. Kanonisk variatanalys fångar en förhållandet mellan en uppsättning prediktorvariabler och en uppsättning kriteriumvariabler genom de kanoniska korrelationerna ρ ₁ , ρ ₂ , ..., och genom uppsättningarna av kanoniska vikter C och D.

Kanonisk analys

Kanonisk analys tillhör en grupp metoder som går ut på att lösa den karakteristiska ekvationen för dess latenta rötter och vektorer. Den beskriver formella strukturer i hyperrymden invariant med avseende på rotationen av deras koordinater. I denna typ av lösningar lämnar rotation många optimerande egenskaper bevarade, förutsatt att den sker på vissa sätt och i ett delrum av dess motsvarande hyperrymd. Denna rotation från den maximala intervariata korrelationsstrukturen till en annan, enklare och mer meningsfull struktur ökar tolkningsbarheten av de kanoniska vikterna C och D. I denna skiljer sig den kanoniska analysen från Harold Hotellings (1936) kanoniska variatanalys (även kallad den kanoniska ). korrelationsanalys ), utformad för att erhålla maximala (kanoniska) korrelationer mellan prediktorns och kriteriets kanoniska variationer. Skillnaden mellan den kanoniska variatanalysen och den kanoniska analysen är analog med skillnaden mellan huvudkomponenterna analys och faktoranalys , var och en med sin karakteristiska uppsättning av likheter, egenvärden och egenvektorer .

Kanonisk analys (enkel)

Kanonisk analys är en multivariat teknik som handlar om att bestämma sambanden mellan grupper av variabler i en datamängd. Datauppsättningen är uppdelad i två grupper X och Y , baserat på några gemensamma egenskaper. Syftet med kanonisk analys är då att hitta sambandet mellan X och Y , dvs kan någon form av X representera Y . Det fungerar genom att hitta den linjära kombinationen av X- variabler, dvs X ₁ , X ₂ etc., och linjär kombination av Y- variabler, dvs Y ₁ , Y ₂ etc., som är högst korrelerade. Denna kombination _{är känd som}_de "första kanoniska varianterna" som vanligtvis betecknas Ui och V1 , där paret _U1 och V1 kallas en "kanonisk funktion " _. Nästa kanoniska funktioner, U ₂ och V ₂ , begränsas sedan så att de är okorrelerade med U ₁ och V ₁ . Allt skalas så att variansen är lika med 1.

Man kan också konstruera relationer som görs för att överensstämma med restriktioner som härrör från teori eller för att överensstämma med sunt förnuft/intuition. Dessa kallas maximala korrelationsmodeller. (Tofallis, 1999)

Matematiskt maximerar kanonisk analys U′X′YV med förbehåll för U′X′XU = I och V′Y′YV = I , där X och Y är datamatriserna (rad till exempel och kolumn för funktion).

Se även

RV koefficient

Hotelling, H. (1936). "Relationer mellan två uppsättningar av varianter". Biometrika . 28 (3–4): 321–377. doi : 10.1093/biomet/28.3-4.321 . JSTOR 2333955 .
Krus, DJ; et al. (1976). "Rotation i kanonisk analys". Pedagogisk och psykologisk mätning . 36 (3): 725–730. doi : 10.1177/001316447603600320 .
Liang, KH; Krus, DJ; Webb, JM (1995). "K-faldig korsvalidering i kanonisk analys". Multivariat beteendeforskning . 30 (4): 539–545. doi : 10.1207/s15327906mbr3004_4 .
Tofallis, C. (1999). "Modellbyggnad med flera beroende variabler och begränsningar". JR Stat. Soc. D . 48 (3): 1–8. arXiv : 1109.0725 . doi : 10.1111/1467-9884.00195 . SSRN 1353202 .