Parat skillnadstest
I statistik är ett parskillnadstest en typ av lokaliseringstest som används när man jämför två uppsättningar mätningar för att bedöma om deras befolkningsmedelvärden skiljer sig åt. Ett parat skillnadstest använder ytterligare information om provet som inte finns i en vanlig oparad testsituation, antingen för att öka den statistiska kraften eller för att minska effekterna av konfounders .
Specifika metoder för att utföra parade skillnadstester är, för normalfördelad skillnad t-test (där populationens standardavvikelse för skillnaden inte är känd) och det parade Z-testet (där populationens standardavvikelse för skillnaden är känd), och för skillnader som kanske inte är normalt fördelade, Wilcoxon signed-rank test samt det parade permutationstestet .
Det mest välbekanta exemplet på ett parskillnadstest inträffar när försökspersoner mäts före och efter en behandling. Ett sådant "upprepade mätningar"-test jämför dessa mätningar inom försökspersoner, snarare än mellan försökspersoner, och kommer i allmänhet att ha större kraft än ett oparat test. Ett annat exempel kommer från att matcha fall av en sjukdom med jämförbara kontroller.
Används för att minska variansen
Parade differenstester för att minska variansen är en specifik typ av blockering . För att illustrera idén, anta att vi bedömer prestandan hos ett läkemedel för behandling av högt kolesterol. Under designen av vår studie registrerar vi 100 försökspersoner och mäter varje försökspersons kolesterolnivå. Sedan behandlas alla försökspersoner med läkemedlet i sex månader, varefter deras kolesterolnivåer mäts igen. Vårt intresse är om läkemedlet har någon effekt på medelkolesterolnivåerna, vilket kan utläsas genom en jämförelse av efterbehandlingsmätningar med mätningar före behandling.
Nyckelfrågan som motiverar det parade skillnadstestet är att om inte studien har mycket strikta inträdeskriterier, är det troligt att försökspersonerna kommer att skilja sig väsentligt från varandra innan behandlingen påbörjas. Viktiga baslinjeskillnader mellan försökspersonerna kan bero på deras kön, ålder, rökstatus, aktivitetsnivå och kost.
Det finns två naturliga metoder för att analysera dessa data:
- I en "oparad analys" behandlas data som om studiedesignen faktiskt hade varit att registrera 200 försökspersoner, följt av slumpmässig tilldelning av 100 försökspersoner till var och en av behandlings- och kontrollgrupperna. Behandlingsgruppen i den oparade designen skulle ses som analog med mätningarna efter behandling i den parade designen, och kontrollgruppen skulle ses som analog med mätningarna före behandling. Vi kunde sedan beräkna provmedelvärdena inom de behandlade och obehandlade grupperna av försökspersoner och jämföra dessa medelvärden med varandra.
- I en "parad skillnadsanalys" skulle vi först subtrahera förbehandlingsvärdet från efterbehandlingsvärdet för varje patient och sedan jämföra dessa skillnader med noll.
Om vi bara tar hänsyn till medlen ger de parade och oparade tillvägagångssätten samma resultat. För att se detta, låt Y i 1 , Y i 2 vara de observerade data för det i: te paret, och låt D i = Y i 2 − Y i 1 . Låt beteckna också , D , Yi sampelmedelvärdena och Y2 , Di , respektive för Yi2 , _ Yi och . _ Genom att ordna om termer kan vi se det
där n är antalet par. Den genomsnittliga skillnaden mellan grupperna beror alltså inte på om vi organiserar data som par.
Även om medelskillnaden är densamma för den parade och oparade statistiken, kan deras statistiska signifikansnivåer vara mycket olika, eftersom det är lätt att överskatta variansen för den oparade statistiken. Variansen för D är
där σ 1 och σ 2 är populationens standardavvikelser för Y i 1- respektive Y i 2 -data. Således är variansen för D lägre om det finns positiv korrelation inom varje par. Sådan korrelation är mycket vanlig vid upprepade mätningar, eftersom många faktorer som påverkar värdet som jämförs inte påverkas av behandlingen. Till exempel, om kolesterolnivåer är associerade med ålder, kommer effekten av ålder att leda till positiva korrelationer mellan kolesterolnivåerna som mäts inom försökspersoner, så länge som studiens varaktighet är liten i förhållande till variationen i åldrar i urvalet.
Kraften hos det parade Z-testet
Antag att vi använder ett Z-test för att analysera data, där varianserna mellan förbehandlings- och efterbehandlingsdata σ 1 2 och σ 2 2 är kända (situationen med ett t-test är liknande). Den oparade Z-teststatistiken är
Effekten av det oparade, ensidiga testet utfört på nivå α = 0,05 kan beräknas enligt följande:
där S är standardavvikelsen för D , Φ är den normala kumulativa fördelningsfunktionen och δ = EY 2 − EY 1 är den verkliga effekten av behandlingen. Konstanten 1,64 är den 95:e percentilen av standardnormalfördelningen, som definierar testets avstötningsregion.
Genom en liknande beräkning är kraften i det parade Z-testet
Genom att jämföra kraftuttrycken för de parade och oparade testerna kan man se att det parade testet har mer kraft så länge som
Detta villkor är uppfyllt närhelst , korrelationen inom-par, är positiv.
En modell för slumpmässiga effekter för parat testning
Följande statistiska modell är användbar för att förstå det parade skillnadstestet
där α i är en slumpmässig effekt som delas mellan de två värdena i paret, och ε ij är en slumpmässig brusterm som är oberoende över alla datapunkter. De konstanta värdena μ 1 , μ 2 är förväntade värden för de två mätningarna som jämförs, och vårt intresse är δ = μ 2 − μ 1 .
I denna modell fångar α i "stabila confounders" som har samma effekt på mätningarna före och efter behandling. När vi subtraherar för att bilda D i upphävs α i , så bidra inte till variansen. Kovariansen inom paren är
Detta är icke-negativt, så det leder till bättre prestanda för det parade differenstestet jämfört med det oparade testet, om inte α i är konstant över i , i vilket fall de parade och oparade testerna är ekvivalenta.
I mindre matematiska termer antar det oparade testet att data i de två grupper som jämförs är oberoende. Detta antagande bestämmer formen för variansen av D . Men när två mätningar görs för varje försöksperson är det osannolikt att de två mätningarna är oberoende. Om de två mätningarna inom en individ är positivt korrelerade, överskattar det oparade testet variansen av D , vilket gör det till ett konservativt test i den meningen att dess faktiska typ I -felsannolikhet kommer att vara lägre än den nominella nivån, med en motsvarande förlust av statistisk styrka . I sällsynta fall kan data vara negativt korrelerade inom försökspersoner, i vilket fall det oparade testet blir antikonservativt. Det parade testet används vanligtvis när upprepade mätningar görs på samma försökspersoner, eftersom det har rätt nivå oavsett korrelationen mellan mätningarna inom par.
Används för att minska förvirring
En annan tillämpning av parad skillnadstestning uppstår när man jämför två grupper i en uppsättning observationsdata , med målet att isolera effekten av en faktor av intresse från effekterna av andra faktorer som kan spela en roll. Anta till exempel att lärare använder ett av två olika tillvägagångssätt, betecknade "A" och "B", för att lära ut ett visst matematiskt ämne. Vi kan vara intresserade av om elevernas prestationer på ett standardiserat matematikprov skiljer sig åt beroende på undervisningsupplägget. Om lärarna är fria att använda förhållningssätt A eller förhållningssätt B, är det möjligt att lärare vars elever redan presterar bra i matematik med fördel väljer metod A (eller vice versa). I den här situationen kommer en enkel jämförelse mellan medelprestationerna för elever som undervisas med tillvägagångssätt A och tillvägagångssätt B sannolikt att visa en skillnad, men denna skillnad beror delvis eller helt på de redan existerande skillnaderna mellan de två grupperna av elever. I den här situationen fungerar elevernas baslinjeförmågor som en förvirrande variabel , genom att de är relaterade till både resultatet (prestanda på det standardiserade testet) och till behandlingsuppgiften att närma sig A eller tillvägagångssätt B.
Det är möjligt att minska, men inte nödvändigtvis eliminera, effekterna av förvirrande variabler genom att bilda "konstgjorda par" och utföra ett parvis skillnadstest. Dessa artificiella par är konstruerade baserat på ytterligare variabler som anses fungera som konfounders. Genom att para ihop elever vars värden på de störande variablerna liknar varandra beror en större del av skillnaden i värdet av intresse (t.ex. det standardiserade testresultatet i exemplet som diskuterats ovan), på faktorn av intresse, och en mindre del beror på till konfounderaren. Att bilda artificiella par för testning av parade skillnader är ett exempel på ett allmänt tillvägagångssätt för att minska effekterna av confounding när man gör jämförelser med observationsdata som kallas matchning .
Som ett konkret exempel, anta att vi observerar studenttestresultat X under undervisningsstrategierna A och B , och varje elev har antingen en "hög" eller "låg" nivå av matematisk kunskap innan de två undervisningsstrategierna implementeras. Däremot vet vi inte vilka elever som är i kategorin "hög" och vilka som är i kategorin "låg". Populationens genomsnittliga testresultat i de fyra möjliga grupperna är proportionerna av eleverna i grupperna är där p HA + p HB + p LA + p LB = 1 .
"Behandlingsskillnaden" bland elever i den "höga" gruppen är μ HA − μ HB och behandlingsskillnaden bland elever i den "låga" gruppen är μ LA − μ LB . I allmänhet är det möjligt att de två undervisningsstrategierna kan skilja sig åt i endera riktningen, eller inte visa någon skillnad, och effekterna kan skilja sig åt i storlek eller till och med i tecken mellan de "höga" och "låga" grupperna. Till exempel, om strategi B var överlägsen strategi A för väl förberedda elever, men strategi A var överlägsna strategi B för dåligt förberedda elever, skulle de två behandlingsskillnaderna ha motsatta tecken.
Eftersom vi inte känner till elevernas baslinjenivåer, är det förväntade värdet av det genomsnittliga testresultatet X A bland elever i A -gruppen ett genomsnitt av de på de två baslinjenivåerna:
är det genomsnittliga testresultatet X B bland elever i B -gruppen
är det förväntade värdet av den observerade behandlingsskillnaden D = X A − X B
En rimlig nollhypotes är att det inte finns någon effekt av behandlingen inom vare sig de "höga" eller "låga" elevgrupperna, så att μ HA = μ HB och μ LA = μ LB . Under denna nollhypotes kommer det förväntade värdet på D att vara noll if
och
Detta villkor hävdar att elevernas indelning i undervisningsstrategigrupperna A och B är oberoende av deras matematiska kunskaper innan undervisningsstrategierna implementeras. Om detta gäller är matematisk baslinjekunskap inte en förväxling, och omvänt, om matematisk baslinjekunskap är en konfounderare, kommer det förväntade värdet på D i allmänhet att skilja sig från noll. Om det förväntade värdet på D under nollhypotesen inte är lika med noll, kan en situation där vi förkastar nollhypotesen antingen bero på en faktisk differentialeffekt mellan undervisningsstrategierna A och B , eller så kan det bero på icke-oberoende i tilldelningen av elever till A- och B -grupperna (även i fullständig frånvaro av effekt på grund av undervisningsstrategin).
Det här exemplet illustrerar att om vi gör en direkt jämförelse mellan två grupper när konfounders finns, så vet vi inte om någon skillnad som observeras beror på själva grupperingen eller på någon annan faktor. Om vi kan para ihop elever med ett exakt eller uppskattat mått på deras matematiska grundförmåga, så jämför vi bara elever "inom rader" i tabellen över medelvärden som ges ovan. Följaktligen, om nollhypotesen håller, kommer det förväntade värdet av D att vara noll, och statistiska signifikansnivåer har sin avsedda tolkning.
Se även
externa länkar
- Relativ mätning och dess generalisering i beslutsfattande: Varför parvisa jämförelser är centrala i matematik för mätning av immateriella faktorer – den analytiska hierarkin/nätverksprocessen ( Thomas L. Saaty)
- Utvärdering av parvis sekvensjämförelse
- Parvis jämförelse (Filippo A. Salustri)