Lindleys paradox

Lindleys paradox är en kontraintuitiv situation i statistik där de Bayesianska och frekventistiska synsätten på ett hypotestestningsproblem ger olika resultat för vissa val av den tidigare fördelningen . Problemet med oenigheten mellan de två tillvägagångssätten diskuterades i Harold Jeffreys lärobok från 1939; det blev känt som Lindleys paradox efter att Dennis Lindley kallade oenigheten för en paradox i en tidning från 1957.

Även om de hänvisas till som en paradox , kan de olika resultaten från Bayesianska och frekventistiska tillvägagångssätt förklaras som att de används för att svara på fundamentalt olika frågor, snarare än faktisk oenighet mellan de två metoderna.

Icke desto mindre orsakas skillnaderna mellan det frekventistiska och bayesianska synsättet för en stor klass av tidigare av att signifikansnivån hålls fast: som till och med Lindley insåg, "teorin motiverar inte praxis att hålla signifikansnivån fixerad" och till och med "vissa beräkningar av professor Pearson i diskussionen till den artikeln betonade hur signifikansnivån skulle behöva förändras med urvalsstorleken, om förlusterna och tidigare sannolikheter hölls fasta.'' Faktum är att om det kritiska värdet ökar med urvalsstorleken på lämpligt sätt. snabbt, då blir oenigheten mellan de frekventistiska och Bayesianska metoderna försumbar när urvalsstorleken ökar.

Beskrivning av paradoxen

Resultatet av något experiment har två möjliga förklaringar, hypoteserna och och en viss tidigare distribution representerar osäkerhet om vilken hypotes som är mer exakt innan man tar hänsyn till .

Lindleys paradox uppstår när

  1. Resultatet är "signifikant" av ett frekventistiskt test av vilket indikerar tillräckligt med bevis för att förkasta säg, på 5%-nivån, och
  2. Den bakre sannolikheten för givet är hög, vilket indikerar starka bevis för att stämmer bättre överens med än .

Dessa resultat kan inträffa samtidigt när är mycket specifik, mer diffus, och den tidigare fördelningen inte starkt gynnar en eller annat, som ses nedan.

Sifferexempel

Följande numeriska exempel illustrerar Lindleys paradox. I en viss stad har 49 581 pojkar och 48 870 flickor fötts under en viss tidsperiod. Den observerade andelen av mansfödslar är alltså 49 581/98 451 ≈ 0,5036. Vi antar att andelen manliga födslar är en binomial variabel med parametern . Vi är intresserade av att testa om är 0,5 eller något annat värde. Det vill säga vår nollhypotes är och alternativet är .

Frekventistiskt tillvägagångssätt

Det frekventistiska tillvägagångssättet för att testa är att beräkna ett p-värde , sannolikheten för att observera en bråkdel av pojkar som är minst lika stor som med antagande av är sant. Eftersom antalet födslar är mycket stort kan vi använda en normal approximation för andelen manliga födslar , med och \

Vi skulle ha blivit lika förvånade om vi hade sett 49 581 kvinnliga födslar, dvs så en frekventist skulle vanligtvis utföra ett dubbelsidigt test, för vilket p-värdet skulle vara . I båda fallen är p-värdet lägre än signifikansnivån, α, på 5 %, så det frekventistiska tillvägagångssättet avvisar eftersom det inte stämmer överens med de observerade data.

Bayesianskt förhållningssätt

Om man antar att det inte finns någon anledning att gynna den ena hypotesen framför den andra, skulle den Bayesianska metoden vara att tilldela tidigare sannolikheter och en enhetlig fördelning till under , och sedan för att beräkna den bakre sannolikheten för med Bayes sats ,

Efter att ha observerat pojkar av födslar, kan vi beräkna den bakre sannolikheten för varje hypotes med hjälp av sannolikhetsmassfunktionen för en binomial variabel,

där är Beta-funktionen .

Från dessa värden hittar vi den bakre sannolikheten för vilket starkt gynnar över .

De två synsätten – den bayesianska och den frekventa – verkar vara i konflikt, och detta är "paradoxen".

Att förena de bayesianska och frekventistiska synsätten

Nästan säker hypotestestning

Naaman föreslog en anpassning av signifikansnivån till provstorleken för att kontrollera falska positiva: α n , så att α n = n r med r > 1/2 . Åtminstone i det numeriska exemplet, att ta r = 1/2 , resulterar i en signifikansnivå på 0,00318, så frekventisten skulle inte förkasta nollhypotesen, vilket stämmer överens med Bayesianska synsätt.

Oinformativa föregångare

Fördelning av p under nollhypotesen, och den bakre fördelningen av p .

Om vi ​​använder en oinformativ prior och testar en hypotes som är mer lik den i det frekventistiska synsättet försvinner paradoxen.

Till exempel, om vi beräknar den bakre fördelningen , med hjälp av en enhetlig tidigarefördelning på ( dvs finner vi

Om vi ​​använder detta för att kontrollera sannolikheten för att en nyfödd är mer sannolikt att vara en pojke än en flicka, dvs , vi hittar

Det är med andra ord mycket troligt att andelen manliga födslar är över 0,5.

Ingendera analysen ger direkt en uppskattning av effektstorleken , men båda skulle kunna användas för att till exempel avgöra om andelen pojkfödslar sannolikt ligger över en viss tröskel.

Avsaknaden av en verklig paradox

Den uppenbara oenigheten mellan de två tillvägagångssätten orsakas av en kombination av faktorer. Först testar den frekventistiska metoden ovan utan hänvisning till . Den bayesianska metoden utvärderar som ett alternativ till och finner att den första överensstämmer bättre med observationerna. Detta beror på att den senare hypotesen är mycket mer diffus, eftersom kan vara var som helst i har en mycket låg posterior sannolikhet. För att förstå varför, är det bra att betrakta de två hypoteserna som generatorer av observationerna:

  • Under väljer vi och frågar hur troligt det är att se 49 581 pojkar i 98 451 födslar.
  • Under väljer vi slumpmässigt från var som helst inom 0 till 1, och ställer samma fråga.

De flesta möjliga värden för under stöds mycket dåligt av observationerna. I huvudsak är den uppenbara oenigheten mellan metoderna inte en oenighet alls, utan snarare två olika påståenden om hur hypoteserna relaterar till data:

  • Frekventisten finner att är en dålig förklaring till observationen.
  • Bayesianen finner att är en mycket bättre förklaring för observationen än .

Förhållandet mellan kön hos nyfödda är osannolikt 50/50 man/hona, enligt frekventisttestet. Ändå är 50/50 en bättre uppskattning än de flesta, men inte alla , andra förhållanden. Hypotesen skulle ha passat observationen mycket bättre än nästan alla andra förhållanden, inklusive .

Till exempel innebär detta val av hypoteser och tidigare sannolikheter påståendet: "om > 0,49 och < 0,51, då den tidigare sannolikheten för är exakt 0,5 är 0,50/0,51 98 %." Givet en så stark preferens för är det lätt att se varför den bayesianska metoden gynnar inför , även om det observerade värdet för ligger från 0,5. Avvikelsen på över 2 sigma från anses signifikant i det frekventistiska tillvägagångssättet, men dess betydelse åsidosätts av priorn i det Bayesianska tillvägagångssättet.

Om vi ​​tittar på det på ett annat sätt kan vi se att den tidigare fördelningen är i huvudsak platt med en deltafunktion vid . Det är klart att detta är tveksamt. Faktum är att om du skulle föreställa reella tal som kontinuerliga, så skulle det vara mer logiskt att anta att det skulle vara omöjligt för ett givet tal att vara exakt parametervärdet, dvs. vi bör anta P .

En mer realistisk fördelning för i den alternativa hypotesen ger ett mindre överraskande resultat för den bakre delen av . Om vi ​​till exempel ersätter med , dvs. den maximala sannolikhetsuppskattningen för , den bakre sannolikheten för skulle bara vara 0,07 jämfört med 0,93 för (Naturligtvis kan man faktiskt inte använda MLE som en del av en tidigare distribution).

Senaste diskussionen

Paradoxen fortsätter att vara en källa till aktiv diskussion.

Se även

Anteckningar

Vidare läsning