Fishers icke-centrala hypergeometriska fördelning
I sannolikhetsteori och statistik är Fishers icke-centrala hypergeometriska fördelning en generalisering av den hypergeometriska fördelningen där provtagningssannolikheter modifieras av viktfaktorer . Det kan också definieras som den villkorliga fördelningen av två eller flera binomialt fördelade variabler beroende på deras fasta summa.
Fördelningen kan illustreras av följande urnmodell . Antag till exempel att en urna innehåller m 1 röda kulor och m 2 vita kulor, totalt N = m 1 + m 2 kulor. Varje röd boll har vikten ω 1 och varje vit boll har vikten ω 2 . Vi kommer att säga att oddskvoten är ω = ω 1 / ω 2 . Nu tar vi bollar slumpmässigt på ett sådant sätt att sannolikheten att ta en viss boll är proportionell mot dess vikt, men oberoende av vad som händer med de andra bollarna. Antalet kulor tagna av en viss färg följer binomialfördelningen . Om det totala antalet n tagna bollar är känt så är den villkorliga fördelningen av antalet tagna röda bollar för givet n Fishers icke-centrala hypergeometriska fördelning. För att generera denna fördelning experimentellt måste vi upprepa experimentet tills det råkar ge n bollar.
Om vi vill fixa värdet på n före experimentet måste vi ta bollarna en efter en tills vi har n bollar. Bollarna är därför inte längre oberoende. Detta ger en något annorlunda fördelning känd som Wallenius icke-centrala hypergeometriska fördelning . Det är långt ifrån uppenbart varför dessa två fördelningar är olika. Se posten för icke-centrala hypergeometriska fördelningar för en förklaring av skillnaden mellan dessa två fördelningar och en diskussion om vilken fördelning som ska användas i olika situationer.
De två fördelningarna är båda lika med den (centrala) hypergeometriska fördelningen när oddskvoten är 1.
Tyvärr är båda fördelningarna kända i litteraturen som "den" icke-centrala hypergeometriska fördelningen. Det är viktigt att vara specifik om vilken distribution som avses när du använder detta namn.
Fishers icke-centrala hypergeometriska fördelning fick först namnet utökad hypergeometrisk fördelning (Harkness, 1965), och vissa författare använder fortfarande detta namn idag.
Univariat distribution
Parametrar |
|
||
---|---|---|---|
Stöd |
|
||
PMF |
där |
||
Betyda | , där | ||
Läge | , där , , . | ||
Variation | , där P k ges ovan. |
Sannolikhetsfunktionen, medelvärdet och variansen anges i tabellen intill.
Ett alternativt uttryck för fördelningen har både antalet kulor tagna av varje färg och antalet kulor som inte tas som slumpvariabler, varvid uttrycket för sannolikheten blir symmetriskt.
0 Beräkningstiden för sannolikhetsfunktionen kan vara hög när summan i P har många termer. Beräkningstiden kan minskas genom att beräkna termerna i summan rekursivt i förhållande till termen för y = x och bortse från försumbara termer i svansarna (Liao och Rosen, 2001).
Medelvärdet kan approximeras av:
- ,
där , , .
Variansen kan uppskattas av:
- .
Bättre approximationer till medelvärdet och variansen ges av Levin (1984, 1990), McCullagh och Nelder (1989), Liao (1992) och Eisinga och Pelzer (2011). Sadelpunktmetoderna för att approximera medelvärdet och variansen som föreslås Eisinga och Pelzer (2011) ger extremt exakta resultat.
Egenskaper
Följande symmetrirelationer gäller:
Återkommande relation:
Fördelningen kallas kärleksfullt "finchy-pig", baserat på förkortningskonventionen ovan.
Härledning
Den univariata icke-centrala hypergeometriska fördelningen kan härledas alternativt som en villkorlig fördelning i samband med två binomalt fördelade slumpvariabler, till exempel när man överväger svaret på en viss behandling i två olika grupper av patienter som deltar i en klinisk prövning. En viktig tillämpning av den icke-centrala hypergeometriska fördelningen i detta sammanhang är beräkningen av exakta konfidensintervall för oddskvoten som jämför behandlingssvaret mellan de två grupperna.
Antag att X och Y är binomiskt fördelade slumpvariabler som räknar antalet svarande i två motsvarande grupper av storleken m X respektive m Y ,
- .
Deras oddskvot anges som
- .
Svarsprevalensen är helt definierad i termer av oddsen i , som motsvarar samplingsbias i urnschemat ovan, dvs.
- .
Försöket kan sammanfattas och analyseras i termer av följande beredskapstabell.
Behandling
Grupp
|
svarare | icke-svarare | Total |
---|---|---|---|
X | x | . | m X |
Y | y | . | m Y |
Total | n | . | N |
I tabellen motsvarar det totala antalet responders över grupperna och N det totala antalet patienter som rekryterats till studien. Prickarna anger motsvarande frekvensräkningar utan vidare relevans.
Provtagningsfördelningen av responders i grupp X beroende på försöksresultat och prevalenser, :
Observera att nämnaren i huvudsak bara är täljaren, summerad över alla händelser i det gemensamma sampelutrymmet för vilket det gäller att . Termer oberoende av X kan räknas bort från summan och raderas med täljaren.
Multivariat distribution
Parametrar |
|
||
---|---|---|---|
Stöd | |||
PMF |
där |
||
Betyda |
Medelvärdet μ i för x i kan approximeras av där r är den unika positiva lösningen till . |
Fördelningen kan utökas till valfritt antal färger c av kulor i urnan. Multivariatfördelningen används när det finns fler än två färger.
Sannolikhetsfunktionen och en enkel approximation av medelvärdet ges till höger. Bättre approximationer till medelvärdet och variansen ges av McCullagh och Nelder (1989).
Egenskaper
Ordningen på färgerna är godtycklig så att alla färger kan bytas.
Vikterna kan skalas godtyckligt:
- alla
Färger med nolltal ( m i = 0) eller nollvikt (ω i = 0) kan utelämnas från ekvationerna.
Färger med samma vikt kan sammanfogas:
där är den (univariata, centrala) hypergeometriska fördelningssannolikheten.
Ansökningar
Fishers icke-centrala hypergeometriska fördelning är användbar för modeller av partisk sampling eller partiskt urval där de enskilda objekten samplas oberoende av varandra utan konkurrens. Bias eller odds kan uppskattas från ett experimentellt värde av medelvärdet. Använd Wallenius icke-centrala hypergeometriska fördelning istället om objekt provtas en efter en med konkurrens.
Fishers icke-centrala hypergeometriska fördelning används mest för tester i beredskapstabeller där en villkorlig fördelning för fasta marginaler önskas. Detta kan vara användbart till exempel för att testa eller mäta effekten av ett läkemedel. Se McCulagh och Nelder (1989).
Programvara tillgänglig
- FisherHypergeometricDistribution in Mathematica .
- En implementering för programmeringsspråket R är tillgänglig som paketet med namnet BiasedUrn . Inkluderar univariata och multivariata sannolikhetsmassfunktioner, fördelningsfunktioner, kvantiler , slumpvariabelgenererande funktioner, medelvärde och varians.
- R - paketet MCMCpack inkluderar den univariata sannolikhetsmassfunktionen och funktionen som genererar slumpvariabler.
- SAS System inkluderar univariat sannolikhetsmassfunktion och distributionsfunktion.
- Implementering i C++ är tillgänglig från www.agner.org .
- Beräkningsmetoder beskrivs av Liao och Rosen (2001) och Fog (2008).
Se även
- Icke-centrala hypergeometriska fördelningar
- Wallenius icke-centrala hypergeometriska fördelning
- Hypergeometrisk fördelning
- Urnmodeller
- Partiskt prov
- Partiskhet
- Beredskapstabell
- Fishers exakta test
Breslow, NE; Day, NE (1980), Statistical Methods in Cancer Research , Lyon: International Agency for Research on Cancer .
Eisinga, R.; Pelzer, B. (2011), "Sadelpunktsapproximationer till medelvärdet och variansen av den utökade hypergeometriska fördelningen" ( PDF) , Statistica Neerlandica , vol. 65, nr. 1, s. 22–31, doi : 10.1111/j.1467-9574.2010.00468.x .
Fog, A. (2007), Slumptalsteori .
Fog, A. (2008), "Sampling Methods for Wallenius' and Fisher's Noncentral Hypergeometric Distributions", Communications in Statictics, Simulation and Computation , vol. 37, nr. 2, s. 241–257, doi : 10.1080/03610910701790236 , S2CID 14904723 .
Johnson, NL; Kemp, AW; Kotz, S. (2005), Univariate Discrete Distributions , Hoboken, New Jersey: Wiley and Sons .
Levin, B. (1984), "Simple Improvements on Cornfield's approximation to the mean of a noncentral Hypergeometric random variabel", Biometrika , vol. 71, nr. 3, s. 630–632, doi : 10.1093/biomet/71.3.630 .
Levin, B. (1990), "The saddlepoint correction in conditional logistic likelihood analysis", Biometrika , [Oxford University Press, Biometrika Trust], vol. 77, nr. 2, s. 275–285, doi : 10.1093/biomet/77.2.275 , JSTOR 2336805 .
Liao, J. (1992), "An Algorithm for the Mean and Variance of the Noncentral Hypergeometric Distribution", Biometrics , [Wiley, International Biometric Society], vol. 48, nr. 3, s. 889–892, doi : 10.2307/2532354 , JSTOR 2532354 .
Liao, JG; Rosen, O. (2001), "Snabba och stabila algoritmer för beräkning och sampling från den icke-centrala hypergeometriska distributionen", The American Statistician , vol. 55, nr. 4, s. 366–369, doi : 10.1198/000313001753272547 , S2CID 121279235 .
McCulagh, P.; Nelder, JA (1989), Generalized Linear Models, 2. ed. , London: Chapman och Hall .