Tvåvägs variansanalys

Inom statistik är tvåvägsvariansanalysen ( ANOVA ) en förlängning av enkelriktad ANOVA . som undersöker inverkan av två olika kategoriska oberoende variabler på en kontinuerligt beroende variabel Tvåvägs ANOVA syftar inte bara till att bedöma huvudeffekten av varje oberoende variabel utan också om det finns någon interaktion mellan dem.

Historia

1925 nämner Ronald Fisher tvåvägs-ANOVA i sin berömda bok, Statistical Methods for Research Workers (kapitel 7 och 8). 1934 Frank Yates rutiner för det obalanserade fallet. Sedan dess har en omfattande litteratur producerats. Ämnet granskades 1993 av Yasunori Fujikoshi. 2005 Andrew Gelman ett annat tillvägagångssätt för ANOVA, sett som en flernivåmodell .

Datauppsättning

Låt oss föreställa oss en datamängd för vilken en beroende variabel kan påverkas av två faktorer som är potentiella källor till variation. Den första faktorn har -nivåer ( och den andra har -nivåer ( ) . Varje kombination definierar en behandling , för totalt behandlingar. Vi representerar antalet replikat för behandling med , och låter vara indexet för replikatet i denna behandling ( ) .

Från dessa data kan vi bygga en beredskapstabell , där och och det totala antalet replikat är lika med .

Den experimentella designen är balanserad om varje behandling har samma antal replikat, . I ett sådant fall sägs designen också vara ortogonal , vilket gör det möjligt att helt särskilja effekterna av båda faktorerna. Vi kan därför skriva och .

Modell

Vid observation av variation mellan alla datapunkter, till exempel via ett histogram , kan " sannolikhet användas för att beskriva sådan variation". Låt oss därför beteckna med den slumpvariabel som observerade värdet är -:te måttet för behandling . Tvåvägs ANOVA modellerar alla dessa variabler som varierande oberoende och normalt runt ett medelvärde, , med en konstant varians, ( homoskedasticitet ):

.

Specifikt modelleras medelvärdet av svarsvariabeln som en linjär kombination av de förklarande variablerna:

,

där är det stora medelvärdet, är den additiva huvudeffekten av nivå från den första faktorn ( i -te raden i kontingensen tabell), är den additiva huvudeffekten av nivå från den andra faktorn ( j -:e kolumnen i beredskapstabellen) och är den icke-additiva interaktionseffekten av behandling för prover från båda faktorerna (cell på rad i och kolumn j i beredskapstabellen).

Ett annat likvärdigt sätt att beskriva tvåvägs-ANOVA är att nämna att det, förutom variationen som förklaras av faktorerna, kvarstår en del statistiskt brus . Denna mängd oförklarad variation hanteras via introduktionen av en slumpvariabel per datapunkt, kallad error . Dessa slumpvariabler ses som avvikelser från medelvärdet och antas vara oberoende och normalfördelade:

.

Antaganden

Efter Gelman och Hill är antagandena för ANOVA, och mer allmänt den allmänna linjära modellen, i minskande betydelse:

  1. datapunkterna är relevanta med avseende på den vetenskapliga frågan som undersöks;
  2. medelvärdet av svarsvariabeln påverkas additivt (om inte interaktionsterm) och linjärt av faktorerna;
  3. felen är oberoende;
  4. felen har samma varians;
  5. felen är normalfördelade.

Parameteruppskattning

För att säkerställa identifierbarhet av parametrar kan vi lägga till följande "summa-till-noll"-begränsningar:

Hypotestestning

I det klassiska tillvägagångssättet uppnås testning av nollhypoteser (att faktorerna inte har någon effekt) via deras signifikans som kräver beräkning av kvadratsummor .

Att testa om interaktionstermen är signifikant kan vara svårt på grund av det potentiellt stora antalet frihetsgrader .

Exempel

Följande hypotetiska exempel ger skörden för 15 plantor som är föremål för två olika miljövariationer och tre olika gödselmedel.

Extra CO 2 Extra luftfuktighet
Inget gödningsmedel 7, 2, 1 7, 6
Nitrat 11, 6 10, 7, 3
Fosfat 5, 3, 4 11, 4

Fem kvadratsummor beräknas:

Faktor Beräkning Belopp
Enskild 641 15
Gödsel × Miljö 556,1667 6
Gödselmedel 525,4 3
Miljö 519,2679 2
Sammansatt 504,6 1

Slutligen kan summan av kvadrerade avvikelser som krävs för variansanalysen beräknas.

Faktor Belopp Total Miljö Gödselmedel Gödsel × Miljö Resterande
Enskild 641 15 1 1
Gödsel × Miljö 556,1667 6 1 −1
Gödselmedel 525,4 3 1 −1
Miljö 519,2679 2 1 −1
Sammansatt 504,6 1 −1 −1 −1 1
Kvadratiska avvikelser 136,4 14,668 20.8 16.099 84,833
Grader av frihet 14 1 2 2 9

Se även

Anteckningar