Teckentest

Teckentestet är en statistisk metod för att testa för konsekventa skillnader mellan par av observationer , såsom vikten av försökspersoner före och efter behandling. Givet par av observationer (som vikt före och efter behandling) för varje försöksperson, avgör teckentestet om en medlem av paret (som förbehandling) tenderar att vara större än (eller mindre än) den andra medlemmen av paret (som efterbehandling).

De parade observationerna kan betecknas x och y . För jämförelser av parade observationer ( x , y ) är teckentestet mest användbart om jämförelser endast kan uttryckas som x > y , x = y , eller x < y . Om observationerna istället kan uttryckas som numeriska storheter ( x = 7, y = 18), eller som rangordnar (rang av x = 1:a, rankning av y = 8:a), så anger det parade t-testet eller Wilcoxon- rangtest kommer vanligtvis att ha större kraft än teckentestet för att upptäcka konsekventa skillnader.

Om X och Y är kvantitativa variabler kan teckentestet användas för att testa hypotesen att skillnaden mellan X och Y har noll median, förutsatt kontinuerliga fördelningar av de två slumpvariablerna X och Y , i situationen då vi kan dra parvis prover från X och Y .

Teckentestet kan också testa om medianen för en samling tal är betydligt större än eller mindre än ett angivet värde. Till exempel, givet en lista över elevbetyg i en klass, kan teckentestet avgöra om medianbetyget skiljer sig väsentligt från till exempel 75 av 100.

Teckentestet är ett icke-parametriskt test som gör väldigt få antaganden om arten av fördelningarna som testas – det betyder att det har mycket generell tillämplighet men kan sakna den statistiska kraften hos de alternativa testerna.

De två villkoren för teckentestet med parvis prov är att ett urval måste väljas slumpmässigt från varje population, och urvalen måste vara beroende, eller parade. Oberoende prover kan inte paras ihop på ett meningsfullt sätt. Eftersom testet är icke-parametriskt behöver proverna inte komma från normalfördelade populationer. Testet fungerar också för tester med vänstersvans, högersvans och tvåsvans.

Metod

0 Låt p = Pr( X > Y ), och testa sedan nollhypotesen H : p = 0,50. Med andra ord säger nollhypotesen att givet ett slumpmässigt par av mått ( x i , y i ), så är x i och y i lika sannolikt större än den andra.

För att testa nollhypotesen samlas oberoende par av provdata från populationerna {( x 1 , y 1 ), ( x 2 , y 2 ), . . ., ( x n , y n )}. Par utelämnas för vilka det inte finns någon skillnad så att det finns möjlighet till ett reducerat urval av m par.

0 Låt sedan W vara antalet par för vilka y i x i > 0. Om vi ​​antar att H är sant, så följer W en binomialfördelning W ~ b( m , 0,5).

Antaganden

Låt Z i = Y i X i för i = 1, ... , n .

  1. Skillnaderna Z i antas vara oberoende.
  2. Varje Z i kommer från samma kontinuerliga population.
  3. Värdena X i och Y i representerar är ordnade (åtminstone ordningsskalan ), så jämförelserna "större än", "mindre än" och "lika med" är meningsfulla.

Signifikanstestning

Eftersom teststatistiken förväntas följa en binomialfördelning , används det vanliga binomialtestet för att beräkna signifikans . Den normala approximationen till binomialfördelningen kan användas för stora urvalsstorlekar, m > 25.

Vänstersvansvärdet beräknas av Pr( W w ), vilket är p-värdet för alternativet H 1 : p < 0,50. Detta alternativ innebär att X -måtten tenderar att vara högre.

Det högra svansvärdet beräknas av Pr( W w ), vilket är p-värdet för alternativet H 1 : p > 0,50. Detta alternativ innebär att Y -måtten tenderar att vara högre.

För ett tvåsidigt alternativ H 1 är p-värdet två gånger det mindre svansvärdet.

Exempel på tvåsidigt teckentest för matchade par

Zar ger följande exempel på teckentestet för matchade par. Data samlas in om längden på vänster bakben och vänster framben för 10 rådjur.

Rådjur Bakbenslängd (cm) Frambenslängd (cm) Skillnad
1 142 138 +
2 140 136 +
3 144 147
4 144 139 +
5 142 143
6 146 141 +
7 149 143 +
8 150 145 +
9 142 136 +
10 148 146 +

Nollhypotesen är att det inte är någon skillnad mellan bakbens- och frambenslängden hos rådjur. Den alternativa hypotesen är att det är skillnad mellan bakbenslängd och frambenslängd. Detta är ett tvåsidigt test snarare än ett ensidigt test. För det tvåsvansiga testet är den alternativa hypotesen att bakbenslängden kan vara antingen större än eller mindre än frambenslängden. Ett ensidigt test kan vara att bakbenslängden är större än frambenslängden, så att skillnaden bara kan vara åt ena hållet (större än).

Det finns n=10 rådjur. Det finns 8 positiva skillnader och 2 negativa skillnader. Om nollhypotesen är sann, att det inte finns någon skillnad i bakbens- och frambenslängder, så är det förväntade antalet positiva skillnader 5 av 10. Vad är sannolikheten att det observerade resultatet av 8 positiva skillnader, eller ett mer extremt resultat , skulle inträffa om det inte finns någon skillnad i benlängd?

Eftersom testet är dubbelsidigt inkluderar ett resultat som är extremt eller mer extremt än 8 positiva skillnader resultaten av 8, 9 eller 10 positiva skillnader och resultaten av 0, 1 eller 2 positiva skillnader. Sannolikheten för 8 eller fler positiva bland 10 hjortar eller 2 eller färre positiva bland 10 hjortar är densamma som sannolikheten för 8 eller fler huvuden eller 2 eller färre huvuden i 10 vändningar av ett rättvist mynt. Sannolikheterna kan beräknas med hjälp av binomialtestet , med sannolikheten för huvuden = sannolikheten för svansar = 0,5.

  • Sannolikheten för 0 huvuden i 10 vändningar av rättvis mynt = 0,00098
  • Sannolikheten för 1 huvud i 10 vändningar av rättvis mynt = 0,00977
  • Sannolikheten för 2 huvuden i 10 vändningar av rättvis mynt = 0,04395
  • Sannolikheten för 8 huvuden i 10 vändningar av rättvis mynt = 0,04395
  • Sannolikheten för 9 huvuden i 10 vändningar av rättvis mynt = 0,00977
  • Sannolikheten för 10 huvuden i 10 vändningar av rättvis mynt = 0,00098

Den dubbelsidiga sannolikheten för ett resultat så extremt som 8 av 10 positiva skillnader är summan av dessa sannolikheter:

0,00098 + 0,00977 + 0,04395 + 0,04395 + 0,00977 + 0,00098 = 0,109375.

Sannolikheten för att observera ett resultat så extremt som 8 av 10 positiva skillnader i benlängder, om det inte finns någon skillnad i benlängder, är p = 0,109375. Nollhypotesen förkastas inte vid en signifikansnivå på p = 0,05. Med en större urvalsstorlek kan bevisen vara tillräckliga för att förkasta nollhypotesen.

Eftersom observationerna kan uttryckas som numeriska kvantiteter (faktisk benlängd), kommer det parade t-testet eller Wilcoxon signerade rangtestet vanligtvis att ha större kraft än teckentestet för att upptäcka konsekventa skillnader. För detta exempel indikerar det parade t-testet för skillnader att det finns en signifikant skillnad mellan bakbenslängden och frambenslängden ( p = 0,007).

Om det observerade resultatet var 9 positiva skillnader i 10 jämförelser, skulle teckentestet vara signifikant. Endast myntvändningar med 0, 1, 9 eller 10 huvuden skulle vara lika extrema som eller mer extrema än det observerade resultatet.

  • Sannolikheten för 0 huvuden i 10 vändningar av rättvis mynt = 0,00098
  • Sannolikheten för 1 huvud i 10 vändningar av rättvis mynt = 0,00977
  • Sannolikheten för 9 huvuden i 10 vändningar av rättvis mynt = 0,00977
  • Sannolikheten för 10 huvuden i 10 vändningar av rättvis mynt = 0,00098

Sannolikheten för ett resultat så extremt som 9 av 10 positiva skillnader är summan av dessa sannolikheter:

0,00098 + 0,00977 + 0,00977 + 0,00098 = 0,0215.

I allmänhet är 8 av 10 positiva skillnader inte signifikanta ( p = 0,11), men 9 av 10 positiva skillnader är signifikanta ( p = 0,0215).

Exempel

Exempel på ensidigt teckentest för matchade par

Conover ger följande exempel med ett ensidigt teckentest för matchade par. En tillverkare tillverkar två produkter, A och B. Tillverkaren vill veta om konsumenterna föredrar produkt B framför produkt A. Ett urval av 10 konsumenter får vardera produkt A och produkt B och frågade vilken produkt de föredrar.

Nollhypotesen är att konsumenter inte föredrar produkt B framför produkt A. Den alternativa hypotesen är att konsumenter föredrar produkt B framför produkt A. Detta är ett ensidigt (riktat) test.

I slutet av studien föredrog 8 konsumenter produkt B, 1 konsumentföredragen produkt A och en rapporterade ingen preferens.

  • Antal + (föredraget B) = 8
  • Antal – (föredraget A) = 1
  • Antal band (ingen preferens) = 1

Oavgjort exkluderas från analysen, vilket ger n = antalet + och – = 8 + 1 = 9.

Vad är sannolikheten för ett resultat så extremt som 8 positiva till förmån för B i 9 par, om nollhypotesen är sann, att konsumenter inte har någon preferens för B framför A? Detta är sannolikheten för 8 eller fler huvuden i 9 vändningar av ett rättvist mynt, och kan beräknas med hjälp av binomialfördelningen med p(huvuden) = p(svansar) = 0,5.

P(8 eller 9 huvuden i 9 vändningar av ett rättvist mynt) = 0,0195. Nollhypotesen förkastas och tillverkaren drar slutsatsen att konsumenterna föredrar produkt B framför produkt A.

Exempel på teckentest för median av ett enstaka prov

Sprent ger följande exempel på ett teckentest för en median. I en klinisk prövning samlas överlevnadstid (veckor) för 10 patienter med non-Hodgkins lymfom. Den exakta överlevnadstiden var inte känd för en individ som fortfarande levde efter 362 veckor, när studien avslutades. Försökspersonernas överlevnadstider var

49, 58, 75, 110, 112, 132, 151, 276, 281, 362+

Plustecknet indikerar att försökspersonen fortfarande lever i slutet av studien. Forskaren ville avgöra om medianöverlevnadstiden var mindre än eller större än 200 veckor.

Nollhypotesen är att medianöverlevnaden är 200 veckor. Den alternativa hypotesen är att medianöverlevnaden inte är 200 veckor. Detta är ett dubbelsidigt test: den alternativa medianen kan vara större än eller mindre än 200 veckor.

Om nollhypotesen är sann, att medianöverlevnaden är 200 veckor, bör i ett slumpmässigt urval ungefär hälften av försökspersonerna överleva mindre än 200 veckor och hälften bör överleva mer än 200 veckor. Observationer under 200 tilldelas ett minus (−); observationer över 200 tilldelas ett plus (+). För försökspersonernas överlevnadstid finns det 7 observationer under 200 veckor (−) och 3 observationer över 200 veckor (+) för n=10 försökspersoner.

Eftersom varje observation är lika sannolikt att vara över eller under populationsmedianen, kommer antalet pluspoäng att ha en binomial fördelning med medelvärde = 0,5. Vad är sannolikheten för att ett resultat så extremt som 7 av 10 försökspersoner ligger under medianen? Detta är exakt samma sak som sannolikheten för ett resultat så extremt som 7 huvuden på 10 kast av ett rättvist mynt. Eftersom detta är ett dubbelsidigt test kan ett extremt resultat vara antingen tre eller färre huvuden eller sju eller fler huvuden.

Sannolikheten att observera k huvuden i 10 kast av ett rättvist mynt, med p(huvuden) = 0,5, ges av binomialformeln:

Pr(Antal huvuden = k ) = Välj(10, k ) × 0,5 10

Sannolikheten för varje värde på k anges i tabellen nedan.

k 0 1 2 3 4 5 6 7 8 9 10
Pr 0,0010 0,0098 0,0439 0,1172 0,2051 0,2461 0,2051 0,1172 0,0439 0,0098 0,0010

Sannolikheten för 0, 1, 2, 3, 7, 8, 9 eller 10 huvuden i 10 kast är summan av deras individuella sannolikheter:

0,0010 + 0,0098 + 0,0439 + 0,1172 + 0,1172 + 0,0439 + 0,0098 + 0,0010 = 0,3438.

Sannolikheten för att observera 3 eller färre plustecken eller 7 eller fler plustecken i överlevnadsdatan, om medianöverlevnaden är 200 veckor, är alltså 0,3438. Det förväntade antalet plustecken är 5 om nollhypotesen är sann. Att observera 3 eller färre, eller 7 eller fler plus, skiljer sig inte signifikant från 5. Nollhypotesen förkastas inte. På grund av den extremt lilla provstorleken har detta prov låg effekt för att upptäcka en skillnad.

Mjukvaruimplementationer

Teckentestet är ett specialfall av binomialtestet där sannolikheten för framgång under nollhypotesen är p=0,5. Således kan teckentestet utföras med hjälp av binomialtestet, som tillhandahålls i de flesta statistiska program. On-line miniräknare för teckentestet kan skapas genom att söka på "teckentest miniräknare". Många webbplatser erbjuder binomialtestet, men erbjuder vanligtvis bara en dubbelsidig version.

Excel-programvara för teckentest

En mall för teckentestet med Excel finns på http://www.real-statistics.com/non-parametric-tests/sign-test/

R programvara för teckentest

I R kan binomialtestet utföras med funktionen binom.test() .

Syntaxen för funktionen är

             binom.test  (  x  ,  n  ,  p  =  0,5  ,  alternativ  =  c  (  "two.sided"  ,  "less"  ,  "större"  ),  conf.level  =  0,95  ) 

var

  • x = antal framgångar, eller en vektor med längd 2 som ger antalet framgångar respektive misslyckanden
  • n = antal försök; ignoreras om x har längd 2
  • p = hypotes sannolikhet för framgång
  • alternativ =anger den alternativa hypotesen och måste vara en av "tvåsidigt", "större" eller "mindre"
  • conf.level = konfidensnivå för det returnerade konfidensintervallet.

Exempel på teckentest med R-funktionen binom.test

Teckentestexemplet från Zar jämförde längden på bakbenen och frambenen på rådjur. Bakbenet var längre än frambenet hos 8 av 10 rådjur. Således finns det x=8 framgångar i n=10 försök. Den antagna sannolikheten för framgång (definierad som bakben längre än framben) är p = 0,5 under nollhypotesen att bakben och framben inte skiljer sig åt i längd. Den alternativa hypotesen är att bakbenslängden kan vara antingen större än eller mindre än frambenslängden, vilket är ett tvåsidigt test, specificerat som alternative="two.sided".

R-kommandot binom.test ( x = 8 , n = 10 , p = 0,5 , alternativ = "two.sided" ) ger p=0,1094, som i exemplet.

Teckentestexemplet i Conover undersökte konsumenternas preferenser för produkt A kontra produkt B. Nollhypotesen var att konsumenterna inte föredrar produkt B framför produkt A. Den alternativa hypotesen var att konsumenterna föredrar produkt B framför produkt A, ett ensidigt test . I studien föredrog 8 av 9 konsumenter som uttryckte en preferens produkt B framför produkt A.

R-kommandot binom.test ( x = 8 , n = 9 , p = 0,5 , alternativ = "större" ) ger p=0,01953, som i exemplet.

Historia

Conover och Sprent beskriver John Arbuthnots användning av teckentestet 1710. Arbuthnot undersökte födelseboken i London för vart och ett av de 82 åren från 1629 till 1710. Varje år översteg antalet män födda i London antalet kvinnor. Om nollhypotesen om lika antal födslar är sann, är sannolikheten för det observerade resultatet 1/2 82 , vilket leder till att Arbuthnot drar slutsatsen att sannolikheten för manliga och kvinnliga födslar inte var exakt lika.

För sina publikationer 1692 och 1710 tillskrivs Arbuthnot "... den första användningen av signifikanstest ...", det första exemplet på resonemang om statistisk signifikans och moralisk säkerhet, och "... kanske den första publicerade rapporten av ett icke-parametriskt test ...".

Hald beskriver vidare effekterna av Arbuthnots forskning.

"Nicholas Bernoulli (1710–1713) avslutar analysen av Arbuthnots data genom att visa att större delen av variationen av det årliga antalet mansfödslar kan förklaras som binomialt med p = 18/35. Detta är det första exemplet på att passa en binomial till data. Därför har vi här ett signifikanstest som förkastar hypotesen p = 0,5 följt av en uppskattning av p och en diskussion om passformen ..."

Samband till andra statistiska test

Wilcoxon signerade rangtest

Teckentestet kräver endast att observationerna i ett par är ordnade, till exempel x > y . I vissa fall kan observationerna för alla ämnen tilldelas ett rangvärde (1, 2, 3, ...). Om observationerna kan rangordnas, och varje observation i ett par är ett slumpmässigt urval från en symmetrisk fördelning, Wilcoxon signed-rank test lämpligt. Wilcoxon-testet kommer i allmänhet att ha större förmåga att upptäcka skillnader än teckentestet. Den asymptotiska relativa effektiviteten för teckentestet till Wilcoxon signed rank test, under dessa omständigheter, är 0,67.

Parat t-test

Om de parade observationerna är numeriska kvantiteter (såsom den faktiska längden på bakbenet och frambenet i Zar-exemplet), och skillnaderna mellan parade observationer är slumpmässiga urval från en enda normalfördelning, är det parade t-testet lämpligt . Det parade t-testet kommer i allmänhet att ha större förmåga att upptäcka skillnader än teckentestet. Den asymptotiska relativa effektiviteten för teckentestet till det parade t-testet, under dessa omständigheter, är 0,637. Men om fördelningen av skillnaderna mellan par inte är normal, utan istället är tungsvansad ( platykurtic distribution ), kan teckentestet ha mer kraft än det parade t-testet, med en asymptotisk relativ effektivitet på 2,0 i förhållande till det parade t. -test och 1,3 i förhållande till Wilcoxon signerade rangtest.

McNemars test

I vissa applikationer kan observationerna inom varje par endast ta värdena 0 eller 1. Till exempel kan 0 indikera misslyckande och 1 kan indikera framgång. Det finns fyra möjliga par: {0,0}, {0,1}, {1,0} och {1,1}. I dessa fall används samma procedur som teckentestet, men kallas McNemars test .

Friedman test

Istället för parade observationer som (Produkt A, Produkt B), kan data bestå av tre eller flera nivåer (Produkt A, Produkt B, Produkt C). Om de enskilda observationerna kan ordnas på samma sätt som för teckentestet, till exempel B > C > A, Friedman-testet användas.

Trinomiellt test

Bian, McAleer och Wong föreslog 2011 ett icke-parametriskt test för parad data när det finns många band. De visade att deras trinomialtest är överlägset teckentestet i närvaro av slipsar.

Se även

  • Wilcoxon signed-rank test – En mer kraftfull variant av teckentestet, men en som också förutsätter en symmetrisk fördelning och intervalldata.
  • Mediantest – Ett oparat alternativ till teckentestet.
  • Gibbons, JD och Chakraborti, S. (1992). Icke-parametrisk statistisk slutledning. Marcel Dekker Inc., New York.
  • Kök, LJ(2003). Grundläggande statistik och dataanalys. Duxbury.
  • Conover, WJ (1980). Practical Nonparametric Statistics , 2nd ed. Wiley, New York.
  • Lehmann, EL (1975). Icke-parametriska: Statistiska metoder baserade på rangordningar. Holden och Day, San Francisco.