Icke-centrala hypergeometriska fördelningar

I statistik är den hypergeometriska fördelningen den diskreta sannolikhetsfördelningen som genereras genom att plocka färgade kulor slumpmässigt från en urna utan att ersättas.

Olika generaliseringar till denna fördelning finns för fall där plockningen av färgade bollar är partisk så att bollar av en färg är mer benägna att plockas än bollar av en annan färg.

Detta kan illustreras med följande exempel. Antag att en opinionsundersökning görs genom att ringa slumpmässiga telefonnummer. Arbetslösa är mer benägna att vara hemma och svara i telefon än anställda. Därför är arbetslösa respondenter sannolikt överrepresenterade i urvalet . Sannolikhetsfördelningen av sysselsatta kontra arbetslösa respondenter i ett urval av n respondenter kan beskrivas som en icke-central hypergeometrisk fördelning .

Beskrivningen av partiska urnmodeller kompliceras av det faktum att det finns mer än en icke-central hypergeometrisk fördelning. Vilken fördelning man får beror på om föremål (t.ex. färgade bollar) provtas en efter en på ett sätt som det råder konkurrens mellan föremålen eller om de samplas oberoende av varandra. Namnet icke-central hypergeometrisk fördelning har använts för båda dessa fall. Användningen av samma namn för två olika distributioner kom till eftersom de studerades av två olika grupper av vetenskapsmän med knappt någon kontakt med varandra.

Agner Fog (2007, 2008) föreslog att det bästa sättet att undvika förvirring är att använda namnet Wallenius icke-centrala hypergeometriska fördelning för distributionen av en partisk urnmodell där ett förutbestämt antal föremål ritas en efter en på ett konkurrenskraftigt sätt och att använda namnet Fishers icke-centrala hypergeometriska fördelning för en där föremål ritas oberoende av varandra, så att det totala antalet ritade föremål är känt först efter experimentet. Namnen syftar på Kenneth Ted Wallenius och RA Fisher , som var de första som beskrev respektive utdelning.

Fishers icke-centrala hypergeometriska fördelning hade tidigare fått namnet utökad hypergeometrisk fördelning , men detta namn används sällan i den vetenskapliga litteraturen, förutom i handböcker som behöver skilja mellan de två fördelningarna.

Wallenius icke-centrala hypergeometriska fördelning

Wallenius fördelning kan förklaras på följande sätt. Antag att en urna innehåller röda kulor och vita kulor, totalt bollar. bollar dras slumpmässigt från urnan en efter en utan ersättning. Varje röd boll har vikten , och varje vit boll har vikten . Vi antar att sannolikheten att ta en viss boll är proportionell mot dess vikt. Den fysiska egenskapen som avgör oddsen kan vara något annat än vikt, som storlek eller hala eller någon annan faktor, men det är bekvämt att använda ordet vikt för oddsparametern.

Sannolikheten att den första bollen som väljs är röd är lika med viktandelen av röda bollar:

Sannolikheten att den andra bollen som väljs är röd beror på om den första bollen var röd eller vit. Om den första bollen var röd används formeln ovan med reducerad med en. Om den första kulan var vit används formeln ovan med reducerad med en.

Det viktiga som utmärker Wallenius distribution är att det råder konkurrens mellan bollarna. Sannolikheten att en viss boll tas i en viss lottning beror inte bara på dess egen vikt, utan också på den totala vikten av de konkurrerande bollarna som finns kvar i urnan i det ögonblicket. Och vikten på de tävlande bollarna beror på resultatet av alla föregående dragningar.

En multivariat version av Wallenius distribution används om det finns fler än två olika färger.

Fördelningen av kulorna som inte är ritade är en komplementär Wallenius icke-centrala hypergeometriska fördelning .

Fishers icke-centrala hypergeometriska fördelning

I Fisher-modellen är bollarnas öden oberoende och det finns inget beroende mellan dragningarna. Man kan lika gärna ta alla n bollar samtidigt. Varje boll har ingen "kunskap" om vad som händer med de andra bollarna. Av samma anledning är det omöjligt att veta värdet på n före experimentet. Om vi ​​försökte fixa värdet på n så skulle vi inte ha något sätt att förhindra att boll nummer n + 1 tas utan att bryta mot principen om oberoende mellan bollar. n är därför en slumpvariabel, och Fisher-fördelningen är en betingad fördelning som endast kan bestämmas efter experimentet när n observeras. Den ovillkorliga fördelningen är två oberoende binomialer , en för varje färg.

Fishers fördelning kan helt enkelt definieras som den villkorliga fördelningen av två eller flera oberoende binomialvarianter beroende på deras summa. En multivariat version av Fishers distribution används om det finns fler än två färger på bollar.

Skillnaden mellan de två icke-centrala hypergeometriska fördelningarna





Jämförelse av fördelningar med samma odds: Blå : Wallenius ω = 0,5 Röd : Fisher ω = 0,5 Grön : Central hypergeometrisk ω = 1. m 1 = 80, m 2 = 60, n = 100




Jämförelse av fördelningar med samma medelvärde: Blå : Wallenius ω = 0,5 Röd : Fisher ω = 0,28 Grön : Central hypergeometrisk ω = 1. m 1 = 80, m 2 = 60, n = 100

Wallenius och Fishers fördelningar är ungefär lika när oddskvoten är nära 1, och n är låg jämfört med totalt antal bollar, N . Skillnaden mellan de två fördelningarna blir högre när oddskvoten är långt ifrån ett och n är nära N . De två fördelningarna approximerar varandra bättre när de har samma medelvärde än när de har samma odds (ω = 1) (se figurerna ovan).

Båda fördelningarna degenererar till den hypergeometriska fördelningen när oddskvoten är 1, eller till den binomiala fördelningen när n = 1.

För att förstå varför de två fördelningarna är olika kan vi överväga följande extrema exempel: En urna innehåller en röd kula med vikten 1000 och tusen vita kulor vardera med vikten 1. Vi vill beräkna sannolikheten för att den röda kulan är inte tagit.

Först tittar vi på Wallenius-modellen. Sannolikheten att den röda bollen inte tas i det första draget är 1⁄2 . 1000/2000 = Sannolikheten att den röda bollen inte tas i den andra dragningen, under förutsättning att den inte togs i den första dragningen, är 999/1999 ≈ 1 2 . Sannolikheten att den röda bollen inte tas i den tredje dragningen, under förutsättning att den inte togs i de två första dragningarna, är 998/1998 ≈ 1 2 . Om vi ​​fortsätter på detta sätt kan vi räkna ut att sannolikheten att inte ta den röda bollen i n drag är ungefär 2 n så länge n är liten jämfört med N . Sannolikheten att inte ta en väldigt tung boll i n drag faller med andra ord nästan exponentiellt med n i Wallenius modell. Exponentialfunktionen uppstår eftersom sannolikheterna för varje dragning alla multipliceras med varandra.

Detta är inte fallet i Fishers modell, där bollar tas oberoende, och möjligen samtidigt. Här är dragningarna oberoende och sannolikheterna multipliceras därför inte. Sannolikheten att inte ta den tunga röda bollen i Fishers modell är ungefär 1/( n + 1). De två fördelningarna är därför väldigt olika i detta extrema fall, även om de är ganska lika i mindre extrema fall.

Följande villkor måste vara uppfyllda för att Wallenius distribution ska vara tillämplig:

  • Föremål tas slumpmässigt från en ändlig källa som innehåller olika typer av föremål utan ersättning.
  • Föremålen ritas en efter en.
  • Sannolikheten att ta ett visst föremål vid en viss dragning är lika med dess andel av den totala "vikten" av alla föremål som ännu inte har tagits vid det tillfället. Vikten av ett föremål beror bara på dess typ (t.ex. färg).
  • Det totala antalet n objekt att ta är fast och oberoende av vilka objekt som råkar tas först.

Följande villkor måste vara uppfyllda för att Fishers distribution ska vara tillämplig:

  • Föremål tas slumpmässigt från en ändlig källa som innehåller olika typer av föremål utan ersättning.
  • Föremål tas oberoende av varandra. Huruvida ett föremål tas är oberoende av om ett annat föremål tas. Om ett objekt tas före, efter eller samtidigt med ett annat är irrelevant.
  • Sannolikheten att ta ett visst föremål är proportionell mot dess "vikt". Vikten av ett föremål beror bara på dess typ (t.ex. färg).
  • Det totala antalet n objekt som kommer att tas är inte känt före experimentet.
  • n bestäms efter experimentet och den villkorliga fördelningen för n känd önskas.

Exempel

Följande exempel illustrerar vilken fördelning som gäller i olika situationer.

Exempel 1

Du fångar fisk i en liten sjö som innehåller ett begränsat antal fiskar. Det finns olika sorters fiskar med olika vikt. Sannolikheten att fånga en viss fisk vid ett visst tillfälle är proportionell mot dess vikt.

Du fångar fisken en efter en med ett fiskespö. Du har bestämt dig för att fånga n fisk. Du är fast besluten att fånga exakt n fisk oavsett hur lång tid det kan ta. Du kommer att sluta efter att du har fångat n fisk även om du kan se fler fiskar som är frestande.

Detta scenario kommer att ge en fördelning av fångad fisk som är lika med Wallenius icke-centrala hypergeometriska fördelning.

Exempel 2

Du fångar fisk som i exempel 1, men använder ett stort nät. Du sätter upp nätet en dag och kommer tillbaka nästa dag för att ta bort nätet. Du räknar hur många fiskar du har fångat och sedan åker du hem oavsett hur många fiskar du har fångat. Varje fisk har en sannolikhet att bli snärjd som är proportionell mot dess vikt men oberoende av vad som händer med den andra fisken.

Det totala antalet fiskar som kommer att fångas i detta scenario är inte känt på förhand. Det förväntade antalet fångade fiskar beskrivs därför av flera binomialfördelningar, en för varje sorts fisk.

Efter att fisken har räknats är det totala antalet n fiskar känt. Sannolikhetsfördelningen när n är känt (men antalet av varje typ är inte känt ännu) är Fishers icke-centrala hypergeometriska fördelning.

Exempel 3

Du fångar fisk med ett litet nät. Det är möjligt att mer än en fisk kan fångas i nätet samtidigt. Du kommer att använda nätet upprepade gånger tills du har fått minst n fisk.

Detta scenario ger en fördelning som ligger mellan Wallenius och Fishers fördelning. Det totala antalet fångad fisk kan variera om du får för många fiskar i den sista fångsten. Man kan sätta tillbaka överskottsfisken i sjön, men det ger ändå inte Wallenius fördelning. Detta beror på att du fångar flera fiskar samtidigt. Villkoret att varje fångst beror på alla tidigare fångster gäller inte för fisk som fångas samtidigt eller i samma operation.

Den resulterande fördelningen kommer att ligga nära Wallenius distribution om det är få fiskar i nätet i varje fångst och många kast av nätet. Den resulterande fördelningen kommer att ligga nära Fishers fördelning om det finns många fiskar i nätet i varje fångst och få kast.

Exempel 4

Du fångar fisk med ett stort nät. Fiskar simmar in i nätet slumpmässigt i en situation som liknar en Poisson-process . Du tittar på nätet och tar upp det så fort du har fångat exakt n fisk.

Den resulterande fördelningen kommer att ligga nära Fishers fördelning eftersom fiskarna kommer in i nätet oberoende av varandra. Men fiskens öden är inte helt oberoende eftersom en viss fisk kan räddas från att fångas om ingen annan fisk råkar anlända i nätet före just denna fisk. Detta är mer sannolikt att hända om de andra fiskarna är tunga än om de är lätta.

Exempel 5

Du fångar fisk en efter en med ett fiskespö som i exempel 1. Du behöver en viss mängd fisk för att försörja din familj. Du kommer att sluta när den totala vikten av fisken som fångas når denna förutbestämda gräns. Den resulterande fördelningen kommer att ligga nära Wallenius distribution, men inte exakt lika med den eftersom beslutet att stoppa beror på vikten på den fisk som hittills fångats. n är därför inte känt före fisketuren.

Slutsats till exemplen

Dessa exempel visar att fördelningen av de typer av fisk som fångas beror på hur de fångas. Många situationer kommer att ge en fördelning som ligger någonstans mellan Wallenius och Fishers icke-centrala hypergeometriska fördelningar.

En konsekvens av skillnaden mellan dessa två fördelningar är att man kommer att fånga mer av den tunga fisken i genomsnitt genom att fånga n fisk en efter en än genom att fånga alla n samtidigt. Generellt kan vi säga att vid partisk sampling har oddsparametern en starkare effekt i Wallenius fördelning än i Fishers fördelning, speciellt när n / N är hög.


Sannolikhetsmassfunktion för Wallenius icke-centrala hypergeometriska fördelning för olika värden på oddskvoten ω . m 1 = 80, m 2 = 60, n = 100, ω = 0,1 ... 20

Sannolikhetsmassfunktion för Fishers icke-centrala hypergeometriska fördelning för olika värden på oddskvoten ω . m 1 = 80, m 2 = 60, n = 100, ω = 0,01 ... 1000

Se även

Johnson, NL; Kemp, AW; Kotz, S. (2005), Univariate Discrete Distributions , Hoboken, New Jersey: Wiley and Sons .

McCulagh, P.; Nelder, JA (1983), Generalized Linear Models , London: Chapman och Hall .

Fog, Agner (2007), Slumptalsteori .

  Fog, Agner (2008), "Calculation Methods for Wallenius' Noncentral Hypergeometric Distribution", Communications in Statistics - Simulation and Computation , vol. 37, nr. 2, s. 258–273, doi : 10.1080/03610910701790269 , S2CID 9040568 .