Wallenius icke-centrala hypergeometriska fördelning


Sannolikhetsmassfunktion för Wallenius Noncentral Hypergeometric Distribution för olika värden på oddskvoten ω. m 1 = 80, m 2 = 60, n = 100, ω = 0,1 ... 20

Inom sannolikhetsteori och statistik är Wallenius icke-centrala hypergeometriska fördelning (uppkallad efter Kenneth Ted Wallenius) en generalisering av den hypergeometriska fördelningen där objekt samplas med bias .

Denna fördelning kan illustreras som en urnmodell med bias. Antag till exempel att en urna innehåller m 1 röda kulor och m 2 vita kulor, totalt N = m 1 + m 2 kulor. Varje röd boll har vikten ω 1 och varje vit boll har vikten ω 2 . Vi kommer att säga att oddskvoten är ω = ω 1 / ω 2 . Nu tar vi n bollar, en efter en, på ett sådant sätt att sannolikheten att ta en viss boll vid ett visst drag är lika med dess andel av den totala vikten av alla bollar som ligger i urnan i det ögonblicket. Antalet röda bollar x 1 som vi får i detta experiment är en slumpvariabel med Wallenius icke-centrala hypergeometriska fördelning.

Saken kompliceras av det faktum att det finns mer än en icke-central hypergeometrisk fördelning. Wallenius icke-centrala hypergeometriska fördelning erhålls om bollar provtas en efter en på ett sådant sätt att det blir konkurrens mellan bollarna. Fishers icke-centrala hypergeometriska fördelning erhålls om bollarna provtas samtidigt eller oberoende av varandra. Tyvärr är båda fördelningarna kända i litteraturen som "den" icke-centrala hypergeometriska fördelningen. Det är viktigt att vara specifik om vilken distribution som avses när du använder detta namn.

De två fördelningarna är båda lika med den (centrala) hypergeometriska fördelningen när oddskvoten är 1.

Skillnaden mellan dessa två sannolikhetsfördelningar är subtil. Se Wikipedia-inlägget om icke-centrala hypergeometriska distributioner för en mer detaljerad förklaring.

Univariat distribution

Univariat Wallenius' icke-centrala hypergeometriska fördelning
Parametrar


Stöd

PMF
där
Betyda
Ungefärligt av lösning till
Variation
, där
Rekursiv beräkning av sannolikhet f( x , n ) i Wallenius fördelning. De ljusgrå fälten är möjliga punkter på vägen till slutpunkten. Pilarna indikerar en godtycklig bana.

Wallenius fördelning är särskilt komplicerad eftersom varje boll har en sannolikhet att bli tagen som inte bara beror på dess vikt, utan också på konkurrenternas totala vikt. Och vikten på de tävlande bollarna beror på resultatet av alla föregående dragningar.

Detta rekursiva beroende ger upphov till en differensekvation med en lösning som ges i öppen form av integralen i uttrycket av sannolikhetsmassfunktionen i tabellen ovan.

Slutna formuttryck för sannolikhetsmassfunktionen finns (Lyons, 1980), men de är inte särskilt användbara för praktiska beräkningar på grund av extrem numerisk instabilitet , förutom i degenererade fall.

Flera andra beräkningsmetoder används, inklusive rekursion , Taylorexpansion och numerisk integration (Fog, 2007, 2008).

Den mest tillförlitliga beräkningsmetoden är rekursiv beräkning av f( x , n ) från f( x , n -1) och f( x -1 , n -1) med hjälp av rekursionsformeln nedan under egenskaper. Sannolikheterna för alla ( x , n ) kombinationer på alla möjliga banor som leder till den önskade punkten beräknas med början med f(0,0) = 1 som visas i figuren till höger. Det totala antalet sannolikheter att beräkna är n ( x +1)- x 2 . Andra beräkningsmetoder måste användas när n och x är så stora att denna metod är för ineffektiv.

Sannolikheten att alla bollar har samma färg är lättare att beräkna. Se formeln nedan under multivariatfördelning.

Ingen exakt formel för medelvärdet är känd (kort om fullständig uppräkning av alla sannolikheter). Ekvationen ovan är rimligt korrekt. Denna ekvation kan lösas för μ genom Newton-Raphson iteration . Samma ekvation kan användas för att uppskatta oddsen från ett experimentellt erhållet värde på medelvärdet.

Egenskaper för den univariata fördelningen

Wallenius distribution har färre symmetrirelationer än vad Fishers icke-centrala hypergeometriska fördelning har. Den enda symmetrin är relaterad till byte av färger:

Till skillnad från Fishers fördelning har Wallenius distribution ingen symmetri avseende antalet bollar som inte tagits.

Följande rekursionsformel är användbar för att beräkna sannolikheter:

En annan rekursionsformel är också känd:

Sannolikheten begränsas av

där den understrukna upphöjda skriften indikerar den fallande faktorn .

Multivariat distribution

Fördelningen kan utökas till valfritt antal färger c av kulor i urnan. Multivariatfördelningen används när det finns fler än två färger.

Multivariat Wallenius' icke-centrala hypergeometriska distribution
Parametrar



Stöd
PMF
där
Betyda

Ungefärlig av lösning till
Variation Approximerad av variansen av Fishers icke-centrala hypergeometriska fördelning med samma medelvärde.

Sannolikhetsmassfunktionen kan beräknas med olika Taylor-expansionsmetoder eller genom numerisk integration (Fog, 2008).

Sannolikheten att alla bollar har samma färg, j , kan beräknas som:

för x j = n m j , där den understrukna upphöjda skriften anger den fallande faktorialen .

En ganska bra approximation av medelvärdet kan beräknas med hjälp av ekvationen ovan. Ekvationen kan lösas genom att definiera θ så att

och lösa

för θ genom Newton-Raphson iteration .

Ekvationen för medelvärdet är också användbar för att uppskatta oddsen från experimentellt erhållna värden för medelvärdet.

Inget bra sätt att beräkna variansen är känt. Den mest kända metoden är att approximera den multivariata Wallenius-fördelningen med en multivariat Fishers icke-centrala hypergeometriska fördelning med samma medelvärde, och infoga medelvärdet som beräknats ovan i den ungefärliga formeln för variansen för den senare fördelningen.

Egenskaper för den multivariata fördelningen

Ordningen på färgerna är godtycklig så att alla färger kan bytas.

Vikterna kan skalas godtyckligt:

r .

Färger med nolltal ( m i = 0) eller nollvikt (ω i = 0) kan utelämnas från ekvationerna.

Färger med samma vikt kan sammanfogas:

där är den (univariata, centrala) hypergeometriska fördelningssannolikheten.

Kompletterande Wallenius icke-centrala hypergeometriska fördelning


Sannolikhetsmassfunktion för den komplementära Wallenius icke-centrala hypergeometriska fördelning för olika värden på oddskvoten ω. m 1 = 80, m 2 = 60, n = 40, ω = 0,05 ... 10

De kulor som inte tas i urnexperimentet har en fördelning som skiljer sig från Wallenius icke-centrala hypergeometriska fördelning, på grund av bristande symmetri. Fördelningen av kulorna som inte tagits kan kallas den komplementära Wallenius icke-centrala hypergeometriska fördelningen .

Sannolikheter i den komplementära fördelningen beräknas utifrån Wallenius fördelning genom att ersätta n med N - n , x i med m i - x i och ω i med 1/ω i .

Programvara tillgänglig

Se även

  •   Chesson, J. (1976). "En icke-central multivariat hypergeometrisk fördelning som härrör från partisk provtagning med tillämpning på selektiv predation". Journal of Applied Probability . Vol. 13, nr. 4. Applied Probability Trust. s. 795–797. doi : 10.2307/3212535 . JSTOR 3212535 .
  • Fog, A. (2007). "Slumptalsteori" .
  •   Fog, A. (2008). "Beräkningsmetoder för Wallenius icke-centrala hypergeometriska distribution". Kommunikation i statik, simulering och beräkning . 37 (2): 258–273. doi : 10.1080/03610910701790269 . S2CID 9040568 .
  • Johnson, NL; Kemp, AW; Kotz, S. (2005). Univariata diskreta distributioner . Hoboken, New Jersey: Wiley and Sons.
  • Lyons, NI (1980). "Stängda uttryck för icke-centrala hypergeometriska sannolikheter". Kommunikation i statistik - Simulering och beräkning . Vol. 9, nr. 3. s. 313–314. doi : 10.1080/03610918008812156 .
  •   Manly, BFJ (1974). "En modell för vissa typer av urvalsexperiment". Biometri . Vol. 30, nej. 2. International Biometric Society. s. 281–294. doi : 10.2307/2529649 . JSTOR 2529649 .
  • Wallenius, KT (1963). Biased sampling: den icke-centrala hypergeometriska sannolikhetsfördelningen. Ph.D. Thesis (Thesis). Stanford University, Institutionen för statistik.