Loglinjär analys

Loglinjär analys är en teknik som används i statistik för att undersöka sambandet mellan mer än två kategoriska variabler . Tekniken används för både hypotesprövning och modellbyggande. I båda dessa användningar testas modeller för att hitta den mest sparsamma (dvs minst komplexa) modellen som bäst svarar för variansen i de observerade frekvenserna. (Ett Pearsons chi-kvadrattest skulle kunna användas istället för log-linjär analys, men den tekniken tillåter bara två av variablerna att jämföras åt gången.)

Passande kriterium

Loglinjär analys använder en sannolikhetsförhållandestatistik $\mathrm {X} ^{2}$ som har en ungefärlig chi-kvadratfördelning när urvalsstorleken är stor:

\mathrm {X} ^{2}=2\sum O_{ij}\ln {\frac {O_{ij}}{E_ {I j}}},

var

\ln =

naturlig logaritm ;

O_{ij}=

observerad frekvens i cell _ij ( i = rad och j = kolumn);

E_{ij}=

förväntad frekvens i cell _ij .

\mathrm {X} ^{2}=

avvikelsen för modellen .

Antaganden

Det finns tre antaganden i loglinjär analys:

1. Observationerna är oberoende och slumpmässiga ;

2. Observerade frekvenser är normalt fördelade på förväntade frekvenser över upprepade sampel. Detta är en bra uppskattning om både (a) de förväntade frekvenserna är större än eller lika med 5 för 80 % eller fler av kategorierna och (b) alla förväntade frekvenser är större än 1. Brott mot detta antagande resulterar i en stor minskning av kraft. Föreslagna lösningar på denna överträdelse är: ta bort en variabel, kombinera nivåer av en variabel (t.ex. sätt ihop män och kvinnor) eller samla in mer data.

3. Logaritmen för svarsvariabelns förväntade värde är en linjär kombination av förklarande variabler. Detta antagande är så fundamentalt att det sällan nämns, men som de flesta linjäritetsantaganden är det sällan exakt och ofta helt enkelt gjort för att få en hanteringsbar modell.

Dessutom bör uppgifter alltid vara kategoriska. Kontinuerliga data kan först konverteras till kategoriska data, med viss förlust av information. Med både kontinuerliga och kategoriska data skulle det vara bäst att använda logistisk regression . (All data som analyseras med log-linjär analys kan också analyseras med logistisk regression. Vilken teknik som väljs beror på forskningsfrågorna.)

Variabler

I loglinjär analys finns det ingen tydlig skillnad mellan vilka variabler som är de oberoende eller beroende variablerna. Variablerna behandlas på samma sätt. Men ofta kommer variablernas teoretiska bakgrund att leda till att variablerna tolkas som antingen oberoende eller beroende variabler.

Modeller

Målet med log-linjär analys är att bestämma vilka modellkomponenter som är nödvändiga att behålla för att bäst redogöra för data. Modellkomponenter är antalet huvudeffekter och interaktioner i modellen. Om vi till exempel undersöker sambandet mellan tre variabler – variabel A, variabel B och variabel C – finns det sju modellkomponenter i den mättade modellen. De tre huvudeffekterna (A, B, C), de tre tvåvägsinteraktionerna (AB, AC, BC) och den ena trevägsinteraktionen (ABC) ger de sju modellkomponenterna.

De loglinjära modellerna kan tänkas vara på ett kontinuum med de två ytterligheterna som den enklaste modellen och den mättade modellen . Den enklaste modellen är modellen där alla förväntade frekvenser är lika. Detta är sant när variablerna inte är relaterade. Den mättade modellen är modellen som inkluderar alla modellkomponenter. Denna modell kommer alltid att förklara data bäst, men den är minst sparsam eftersom allt ingår. I denna modell är observerade frekvenser lika med förväntade frekvenser, därför i sannolikhetsförhållandet chi-kvadratstatistik är förhållandet ${\frac {O_{ij}}{E_{ij}}}= 1$ och $\ln(1)=0$ . Detta resulterar i att sannolikhetsförhållandet chi-kvadratstatistik är lika med 0, vilket är den bästa modellanpassningen. Andra möjliga modeller är den villkorade ekvisannolikhetsmodellen och modellen för ömsesidigt beroende.

Varje loglinjär modell kan representeras som en loglinjär ekvation. Till exempel, med de tre variablerna ( A , B , C ) har den mättade modellen följande loglinjära ekvation:

\ln(F_{ijk})=\lambda +\lambda _{i}^{A}+\lambda _{j}^{B}+\lambda _{k}^{C}+\lambda _ {ij}^{AB}+\lambda _{ik}^{AC}+\lambda _{jk}^{BC}+\lambda _{ijk}^{ABC},\,

var

F_{ijk}=

förväntad frekvens i cell _ijk ;

\lambda =

den relativa vikten för varje variabel.

Hierarkisk modell

Loglinjära analysmodeller kan vara hierarkiska eller icke-hierarkiska. Hierarkiska modeller är de vanligaste. Dessa modeller innehåller alla lägre ordningsinteraktioner och huvudeffekter av interaktionen som ska undersökas.

Grafisk modell

En loglinjär modell är grafisk om, när modellen innehåller alla tvåfaktorstermer som genereras av en interaktion av högre ordning, modellen också innehåller interaktionen av högre ordning. Som en direkt följd är grafiska modeller hierarkiska. Dessutom, som helt bestäms av dess tvåfaktorstermer, kan en grafisk modell representeras av en oriktad graf, där hörnen representerar variablerna och kanterna representerar de tvåfaktorstermer som ingår i modellen.

Nedbrytbar modell

En loglinjär modell är nedbrytbar om den är grafisk och om motsvarande graf är ackordal .

Modell passform

Modellen passar bra när residualerna (dvs observerat-förväntat) är nära 0, det vill säga ju närmare de observerade frekvenserna är de förväntade frekvenserna desto bättre passar modellen. Om sannolikhetskvoten chi-kvadratstatistik är icke-signifikant, så passar modellen bra (dvs. beräknade förväntade frekvenser ligger nära observerade frekvenser). Om sannolikhetsförhållandet chi-kvadratstatistik är signifikant passar modellen inte bra (dvs beräknade förväntade frekvenser är inte nära observerade frekvenser).

Bakåteliminering används för att bestämma vilka av modellkomponenterna som är nödvändiga att behålla för att bäst kunna ta hänsyn till data. Loglinjär analys börjar med den mättade modellen och de högsta ordningens interaktioner tas bort tills modellen inte längre passar data korrekt. Närmare bestämt, i varje steg, efter borttagandet av den högsta ordnade interaktionen, beräknas sannolikhetsförhållandet chi-kvadratstatistik för att mäta hur väl modellen passar data. De högst ordnade interaktionerna tas inte längre bort när sannolikhetsförhållandet chi-kvadratstatistik blir signifikant.

Jämföra modeller

När två modeller är kapslade kan modeller också jämföras med ett chi-kvadratskillnadstest. Chi-kvadratskillnadstestet beräknas genom att subtrahera sannolikhetsförhållandet chi-kvadratstatistik för de två modellerna som jämförs. Detta värde jämförs sedan med det kritiska chi-kvadratvärdet vid deras skillnad i frihetsgrader. Om chi-kvadratskillnaden är mindre än chi-kvadratens kritiska värde, passar den nya modellen data betydligt bättre och är den föredragna modellen. Annars, om chi-kvadratskillnaden är större än det kritiska värdet, är den mindre sparsamma modellen att föredra.

Uppföljande tester

När modellen för bästa passform har bestämts, undersöks interaktionen av högsta ordningen genom att utföra chi-kvadratanalyser på olika nivåer av en av variablerna. För att utföra chi-kvadratanalyser behöver man bryta ner modellen i en 2 × 2 eller 2 × 1 kontingenstabell .

Till exempel, om man undersöker sambandet mellan fyra variabler, och modellen för bästa passform innehöll en av trevägsinteraktionerna, skulle man undersöka dess enkla tvåvägsinteraktioner på olika nivåer av den tredje variabeln.

Effektstorlekar

För att jämföra effektstorlekar av interaktionerna mellan variablerna används oddskvoter . Oddskvoter är att föredra framför chi-kvadratstatistik av två huvudskäl:

1. Oddskvoterna är oberoende av urvalets storlek;

2. Oddskvoter påverkas inte av ojämna marginalfördelningar.

programvara

För datauppsättningar med ett fåtal variabler – generella loglinjära modeller

R med loglm -funktionen för MASS -paketet (se handledning )
IBM SPSS-statistik med GENLOG -proceduren ( användning )

För datauppsättningar med hundratals variabler – nedbrytbara modeller

Kordalys

Se även

Vidare läsning

Loglinjära modeller
Simkiss, D.; Ebrahim, GJ; Waterston, AJR (Eds.) "Kapitel 14: Analysera kategoriska data: Log-linjär analys". Journal of Tropical Pediatrics , område endast online, "Research methods II: Multivariate analysis" (s. 144–153). Hämtad maj 2012 från http://www.oxfordjournals.org/tropej/online/ma_chap14.pdf
Pugh, MD (1983). "Medverkande fel och våldtäktsdomar: Loglinjära modeller för att skylla på offret". Social Psychology Quarterly, 46 , 233–242. JSTOR 3033794
Tabachnick, BG, & Fidell, LS (2007). Använda multivariat statistik (5:e upplagan). New York, NY: Allyn och Bacon. ^{[ sida behövs ]}