Dunnetts test

Inom statistik är Dunnetts test ett förfarande för flera jämförelser som utvecklats av den kanadensiske statistikern Charles Dunnett för att jämföra var och en av ett antal behandlingar med en enda kontroll . Flera jämförelser med en kontroll kallas också för många-till-en-jämförelser.

Historia

Dunnetts test utvecklades 1955; en uppdaterad tabell över kritiska värden publicerades 1964.

Problem med flera jämförelser

Problemet med multipla jämförelser, multiplicitet eller multipla testning uppstår när man betraktar en uppsättning statistiska slutledningar samtidigt eller sluter sig till en delmängd av parametrar valda baserat på de observerade värdena. Huvudfrågan i alla diskussioner om förfaranden för flera jämförelser är frågan om sannolikheten för typ I-fel. De flesta skillnader mellan alternativa tekniker beror på olika synsätt på frågan om hur man kontrollerar dessa fel. Problemet är delvis tekniskt; men det är egentligen mycket mer en subjektiv fråga om hur man vill definiera felfrekvensen och hur stor man är villig att låta maximalt möjliga felfrekvens vara. Dunnetts test är välkända och ofta används i flera jämförelseförfaranden för att samtidigt jämföra, genom intervalluppskattning eller hypotestestning, alla aktiva behandlingar med en kontroll vid provtagning från en distribution där normalitetsantagandet är rimligt. Dunnetts test är utformat för att hålla den familjemässiga felfrekvensen vid eller under $\alpha$ när man utför flera jämförelser av behandlingsgrupp med kontroll.

Användning av Dunnetts test

Det ursprungliga arbetet med problem med flera jämförelser gjordes av Tukey och Scheffé . Deras metod var generell, som övervägde alla typer av parvisa jämförelser. Tukeys och Scheffés metoder tillåter hur många jämförelser som helst mellan en uppsättning provmedel. Å andra sidan jämför Dunnetts test bara en grupp med de andra, och tar upp ett specialfall av problem med flera jämförelser - parvisa jämförelser av flera behandlingsgrupper med en enda kontrollgrupp. I det allmänna fallet, där vi jämför vart och ett av paren, gör vi $k(k-1){\big /}2$ jämförelser (där k är antalet grupper), men i fallet behandling kontra kontroller kommer vi endast att göra $(k-1)$ jämförelser. Om vi när det gäller behandlings- och kontrollgrupper skulle använda de mer generella Tukeys och Scheffés metoder kan de resultera i onödigt breda konfidensintervall. Dunnetts test tar hänsyn till den speciella strukturen för att jämföra behandling med kontroll, vilket ger snävare konfidensintervall. Det är mycket vanligt att använda Dunnetts test i medicinska experiment, till exempel för att jämföra blodtalsmätningar på tre grupper av djur, varav en fungerade som kontroll medan de andra två behandlades med två olika läkemedel. En annan vanlig användning av den här metoden är bland agronomer: agronomer kanske vill studera effekten av vissa kemikalier som tillsatts i jorden på skördens avkastning, så de kommer att lämna vissa tomter obehandlade (kontrollytor) och jämföra dem med de tomter där kemikalier tillsattes jorden (reningstomter).

Formell beskrivning av Dunnetts test

Dunnetts test utförs genom att beräkna en Students t-statistik för varje experimentell eller behandlingsgrupp där statistiken jämför behandlingsgruppen med en enda kontrollgrupp. Eftersom varje jämförelse har samma kontroll gemensamt, införlivar proceduren beroenden mellan dessa jämförelser. Speciellt härleds all t-statistik från samma uppskattning av felvariansen som erhålls genom att summera kvadratsummorna för fel över alla (behandlings- och kontroll)grupper. Den formella teststatistiken för Dunnetts test är antingen den största i absoluta värde av denna t-statistik (om ett tvåsidigt test krävs), eller den mest negativa eller mest positiva av t-statistiken (om ett ensidigt test är nödvändig).

I Dunnetts test kan vi använda en gemensam tabell med kritiska värden, men mer flexibla alternativ är numera lätt tillgängliga i många statistikpaket. De kritiska värdena för en given procentenhet beror på: om ett en- eller tvåsidigt test utförs; antalet grupper som jämförs; det totala antalet försök.

Antaganden

Analysen tar hänsyn till fallet där resultaten av experimentet är numeriska, och experimentet utförs för att jämföra p-behandlingar med en kontrollgrupp. Resultaten kan sammanfattas som en uppsättning av $(p+1)$ beräknade medelvärden av uppsättningarna av observationer, ${\displaystyle ({\bar) {X_{0}}},...,{\bar {X_{p}}})} ,$ medan $({\bar {X_{1 }}},...,{\bar {X_{p}}})$ hänvisar till behandlingen och ${\bar {X_{0}}}$ hänvisar till kontrolluppsättningen av observationer , och $s$ är en oberoende uppskattning av den vanliga standardavvikelsen för alla $p+1$ uppsättningar av observationer. Alla ${\bar {X_{i}}}$ i $p+1$ -uppsättningarna av observationer antas vara oberoende och normalfördelade med en gemensam varians $\sigma ^{2}$ och betyder $\mu _{i}$ . Det finns också ett antagande att det finns en tillgänglig uppskattning $s^{2}$ för $\sigma ^{2}$ .

Beräkning

Dunnetts tests beräkning är en procedur som är baserad på att beräkna konfidenspåståenden om de sanna eller förväntade värdena för $p$ skillnaderna ${\bar {X_{i}}}-{ \bar {X_{0}}}$ , alltså skillnaderna mellan behandlingsgruppernas medelvärde och kontrollgruppens medelvärde. Denna procedur säkerställer att sannolikheten för att alla $p$ -satser ${\bar {X_{i}}}-{\bar {X_{0}}}$ är korrekta samtidigt är lika med ett angivet värde, $P$ . Vid beräkning av ensidigt övre (eller nedre) konfidensintervall för det sanna värdet av skillnaden mellan medelvärdet av behandlingen och kontrollgruppen, utgör P $\displaystyle P}$ sannolikheten att detta faktiska värde kommer att vara mindre än det övre (eller större än den nedre) gränsen för det intervallet. Vid beräkning av dubbelsidigt konfidensintervall utgör $P$ sannolikheten att det sanna värdet kommer att ligga mellan de övre och nedre gränserna .

Först kommer vi att beteckna de tillgängliga N observationerna med $X_{ij}$ när $i=1...p$ och $j=1...N_{i}$ och uppskatta den gemensamma variansen genom till exempel: $s^{2}={\frac {\sum _{i=0}^{p}\summa _{j=1}^{N_{i}}(X_{ij}-{\bar {X_{i }}})^{2}}{n}}$ när ${\bar {X_{i}}}$ är medelvärdet av grupp $i$ och $N_ {i}$ är antalet observationer i grupp $i$ , och $n=\sum _{i=0}^{p} N_{i}-(p+1)$ frihetsgrader. Som nämnts tidigare vill vi erhålla separata konfidensgränser för var och en av skillnaderna $m_{i}-m_{0},(i=1.. .p)$ så att sannolikheten att alla $p$ konfidensintervall kommer att innehålla motsvarande $m_{i}-m_{0}$ är lika med $P$ .

Vi kommer att överväga det allmänna fallet där det finns $p$ behandlingsgrupper och en kontrollgrupp. Vi kommer att skriva:

$z_{i}={\cfrac {{\bar {X_{i}}}-{\bar {X_ {0}}}-(m_{i}-m_{0})}{\sqrt {{\cfrac {1}{N_{i}}}+{\cfrac {1}{N_{0}}}} }}$

$D_{i}={\cfrac {{\bar {X_{i}}}-{\bar { X_{0}}}-(m_{i}-m_{0})}{s{\sqrt {{\cfrac {1}{N_{i}}}+{\cfrac {1}{N_{0} }}}}}}$

vi kommer också att skriva: ${\displaystyle D_{i}={\frac {z_{i}}{s}}} ,$ som följer Elevens t-statistikfördelning med n frihetsgrader . De nedre konfidensgränserna med gemensam konfidenskoefficient $P$ för $p$ behandlingseffekterna $m_{i}-m_{0} ,(i=1...p)$ kommer att ges av:

${\bar {X_{i}}}-{\bar {X_{0}}}- d_{i}s{\sqrt {{\frac {1}{N_{i}}}+{\frac {1}{N_{0}}}}},i=1...p$

och $p$ konstanterna $d_{i}'$ väljs så att $Prob(t_{1}<d_{1}',...,t_{p}<d_{p}')=P$ . På liknande sätt kommer de övre gränserna att ges av:

${\bar {X_{i}}}-{\bar {X_{0}}}+ d_{i}s{\sqrt {{\frac {1}{N_{i}}}+{\frac {1}{N_{0}}}}},i=1...p$

För att begränsa $m_{i}-m_{0}$ i båda riktningarna kan följande intervall tas:

${\bar {X_{i}}}-{\bar {X_{0}}}\ pm d_{i}'s{\sqrt {{\frac {1}{N_{i}}}+{\frac {1}{N_{0}}}}},i=1...p$

när $d_{i}''$ är valda för att uppfylla $Sannolikt(|t_{1}|<d_{1}',...,|t_{p}|<d_{p}')=P$ . Lösningen på de specifika värdena för $d_{i}''$ för tvåsidigt test och $d_{i}'$ för ensidigt test ges i tabellerna. En uppdaterad tabell över kritiska värden publicerades 1964.

Exempel

Tygets brotthållfasthet

Följande exempel är anpassat från ett från Villars. ^{[ citat behövs ]} Data representerar mätningar på brotthållfastheten hos tyg som behandlats med tre olika kemiska processer jämfört med en standardmetod för tillverkning.

brottstyrka (lbs.)
	standard	process 1	process 2	process 3
	55	55	55	50
	47	64	49	44
	48	64	52	41
Betyder	50	61	52	45
Variation	19	27	9	21

Här är p=3 och N=3. Den genomsnittliga variansen är $s^{2}=19$ , vilket är en uppskattning av den gemensamma variansen för de fyra uppsättningarna med (p+1)(N-1)=8 frihetsgrader. Detta kan beräknas enligt följande:

${\frac {55^{2}+47^{2}+48^{2}+55 ^{2}+...+41^{2}-3(50^{2}+61^{2}+52^{2}+45^{2})}{8}}={\frac {152}{8}}=19$ .

Standardavvikelsen är $s={\sqrt {19}}=4,36$ och det uppskattade standardfelet för en skillnad mellan två medelvärden är $s{ \sqrt {\frac {2}{N}}}=4.36{\sqrt {\frac {2}{N}}}=3.56$ .

Den kvantitet som måste adderas till och/eller subtraheras från de observerade skillnaderna mellan medel för att ge deras konfidensgränser har av Tukey kallats en "tillåtelse" och ges av A = t s 2 N { $\ sqrt {\frac {2}{N}}}}$ , där t dras från den multivariata t-fördelningen , eller kan erhållas från Dunnetts tabell 1 om en sidogräns önskas eller från Dunnetts tabell 2 om tvåsidiga gränser önskas . För p=3 och df=8, t=2,42 för ensidiga gränser och t=2,88 för tvåsidiga gränser för p=95%. Analoga värden på t kan bestämmas från tabellerna om p=99% konfidens krävs. För ensidiga gränser är ersättningen A=(2,42)(3,56)=9 och försöksledaren kan dra slutsatsen att:

Brotthållfastheten med process 1 överstiger standarden med $61-50-9=2lbs.$
Brotthållfastheten med process 2 överskrider standarden med minst $52-50-9=-7lbs$ .
Brotthållfastheten med process 3 överskrider standarden med minst $45-50-9=-14lbs$ .

Det gemensamma uttalandet som består av ovanstående tre slutsatser har en konfidenskoefficient på 95 %, dvs på lång sikt kommer 95 % av sådana gemensamma uttalanden att vara korrekta. Övre gränser för de tre skillnaderna kunde erhållas på ett analogt sätt. För dubbelsidiga gränser är ersättningen A=(2,88)(3,56)=11 och experimentledaren kan dra slutsatsen att:

Brotthållfastheten med användning av process 1 överstiger standarden med ett belopp mellan

$61-50-11=0lbs.$ och $61-50+11=22lbs.$

Brotthållfastheten med användning av process 2 överstiger standarden med ett belopp mellan

$52-50-11=-9lbs$ och $52-50+11=13lbs$ .

Brotthållfastheten med användning av process 3 överstiger standarden med ett belopp mellan

$45-50-11=-16lbs$ och $45-50+11=6lbs$ . Den gemensamma konfidensfaktorn för dessa tre påståenden är större än 95 %. (På grund av en approximation gjord i beräkningstabellerna 2a och 2b, är de tabellerade värdena för t något större än nödvändigt så att de faktiska p:n som uppnås är något större än 95 och 99%. Ingen sådan approximation gjordes vid beräkning av tabellerna 1a och 1b) .

^ Upton G. & Cook I. (2006.) A Dictionary of Statistics , 2e, Oxford University Press, Oxford, Storbritannien.
^ Rumsey, Deborah (2009-08-19). Statistik II för Dummies . Wiley. sid. 186 . Hämtad 2012-08-22 . dunnetts test utvecklat av.
^ Everett BS & Shrondal A. (2010.) The Cambridge Dictionary of Statistics , 4e, Cambridge University Press, Cambridge, Storbritannien.
^ "Statistisk programvara | University of Kentucky Information Technology" . Uky.edu. Arkiverad från originalet 2012-07-31 . Hämtad 2012-08-22 .
^ ^a ^b ^c ^d Dunnett CW (1955). "En multipel jämförelseprocedur för att jämföra flera behandlingar med en kontroll" . Journal of the American Statistical Association . 50 : 1096–1121. doi : 10.1080/01621459.1955.10501294 .
^ ^a ^b Dunnett CW (1964.) "Nya tabeller för flera jämförelser med en kontroll", Biometrics , 20 :482–491.
^ ^a ^b ^c David C. Howell, "statistiska metoder för psykologi", åttonde upplagan.
^ Dunnetts test , HyperStat Online: En introduktionsstatistiklärobok och onlinehandledning för hjälp i statistikkurser
^ Mekanik för olika tester - Biostatistik BI 345 Arkiverad 2010-06-01 på Wayback Machine , Saint Anselm College

[1] Upton G. & Cook I. (2006.) A Dictionary of Statistics , 2e, Oxford University Press, Oxford, Storbritannien.

[2] Rumsey, Deborah (2009-08-19). Statistik II för Dummies . Wiley. sid. 186 . Hämtad 2012-08-22 . dunnetts test utvecklat av.

[3] Everett BS & Shrondal A. (2010.) The Cambridge Dictionary of Statistics , 4e, Cambridge University Press, Cambridge, Storbritannien.

[4] "Statistisk programvara | University of Kentucky Information Technology" . Uky.edu. Arkiverad från originalet 2012-07-31 . Hämtad 2012-08-22 .

[original_article-5] Dunnett CW (1955). "En multipel jämförelseprocedur för att jämföra flera behandlingar med en kontroll" . Journal of the American Statistical Association . 50 : 1096–1121. doi : 10.1080/01621459.1955.10501294 .

[Dunnett_C._W._1964-6] Dunnett CW (1964.) "Nya tabeller för flera jämförelser med en kontroll", Biometrics , 20 :482–491.

[howell-7] David C. Howell, "statistiska metoder för psykologi", åttonde upplagan.

[8] Dunnetts test , HyperStat Online: En introduktionsstatistiklärobok och onlinehandledning för hjälp i statistikkurser

[9] Mekanik för olika tester - Biostatistik BI 345 Arkiverad 2010-06-01 på Wayback Machine , Saint Anselm College