Hermitfördelning
Sannolikhetsmassfunktion
Den horisontella axeln är indexet k , antalet förekomster. Funktionen definieras endast vid heltalsvärden k . Anslutningslinjerna är endast guider för ögat. | |||
Kumulativ fördelningsfunktion
Den horisontella axeln är indexet k , antalet förekomster. CDF är diskontinuerlig vid heltal av k och platt överallt annars eftersom en variabel som är Hermite distribuerad bara tar heltalsvärden. | |||
Notation | |||
---|---|---|---|
Parametrar | a 1 ≥ 0, a 2 ≥ 0 | ||
Stöd | x ∈ { 0, 1, 2, ... } | ||
PMF | |||
CDF | |||
Betyda | |||
Variation | |||
Skevhet | |||
Ex. kurtosis | |||
MGF | |||
CF | |||
PGF |
Inom sannolikhetsteori och statistik är Hermite -fördelningen , uppkallad efter Charles Hermite , en diskret sannolikhetsfördelning som används för att modellera räknedata med mer än en parameter. Denna fördelning är flexibel när det gäller dess förmåga att tillåta en måttlig överspridning av data.
Författarna Kemp och Kemp har kallat det "Hermite distribution" från det faktum att dess sannolikhetsfunktion och den momentgenererande funktionen kan uttryckas i termer av koefficienterna för (modifierade) hermitpolynom .
Historia
Fördelningen dök först upp i tidningen Applications of Mathematics to Medical Problems, av Anderson Gray McKendrick 1926. I detta arbete förklarar författaren flera matematiska metoder som kan tillämpas på medicinsk forskning. I en av dessa metoder betraktade han den bivariata Poisson-fördelningen och visade att fördelningen av summan av två korrelerade Poisson-variabler följer en fördelning som senare skulle bli känd som Hermite-fördelning.
Som en praktisk tillämpning övervägde McKendrick fördelningen av antalet bakterier i leukocyter . Med hjälp av momentmetoden anpassade han data med Hermite-fördelningen och fann modellen mer tillfredsställande än att passa den med en Poisson-fördelning .
Distributionen introducerades formellt och publicerades av CD Kemp och Adrienne W. Kemp 1965 i deras arbete Some Properties of 'Hermite' Distribution . Arbetet är fokuserat på egenskaperna hos denna fördelning, till exempel ett nödvändigt villkor för parametrarna och deras maximala sannolikhetsestimatorer (MLE), analysen av den sannolikhetsgenererande funktionen (PGF) och hur den kan uttryckas i termer av koefficienterna för ( modifierad) Hermitpolynom . Ett exempel som de har använt i denna publikation är fördelningen av antalet bakterier i leukocyter som använde McKendrick men Kemp och Kemp uppskattar modellen med maximal sannolikhetsmetoden .
Hermitfördelning är ett specialfall av diskret sammansatt Poisson-fördelning med endast två parametrar.
Samma författare publicerade 1966 tidningen An alternative Derivation of the Hermite Distribution . I detta arbete fastställdes att Hermite-fördelningen kan erhållas formellt genom att kombinera en Poisson-fördelning med en normalfördelning .
1971 gjorde YC Patel en jämförande studie av olika uppskattningsförfaranden för Hermite-fördelningen i sin doktorsavhandling. Den inkluderade maximal sannolikhet, momentuppskattare, medelvärde och nollfrekvensuppskattare och metoden för jämna poäng.
1974 gjorde Gupta och Jain en forskning om en generaliserad form av Hermite-distribution.
Definition
Sannolikhetsmassfunktion
Låt X 1 och X 2 vara två oberoende Poisson-variabler med parametrarna a 1 och a 2 . Sannolikhetsfördelningen för den slumpmässiga variabeln Y = X 1 + 2 X 2 är Hermite-fördelningen med parametrarna a 1 och a 2 och sannolikhetsmassfunktionen ges av
var
- n = 0, 1, 2, ...
- a 1 , a 2 ≥ 0.
- ( n − 2 j )! och j ! är faktorerna för ( n − 2 j ) respektive j .
- är heltalsdelen av n /2.
Den sannolikhetsgenererande funktionen för sannolikhetsmassan är,
Notation
När en slumpvariabel Y = X 1 + 2 X 2 fördelas med en hermitfördelning, där X 1 och X 2 är två oberoende Poisson-variabler med parametrarna a 1 och a 2 , skriver vi
Egenskaper
Moment- och kumulantgenererande funktioner
Den momentgenererande funktionen för en slumpvariabel X definieras som det förväntade värdet av e t , som en funktion av den reella parametern t . För en Hermite-fördelning med parametrarna X 1 och X 2 finns den momentgenererande funktionen och är lika med
Den kumulantgenererande funktionen är logaritmen för den momentgenererande funktionen och är lika med
Om vi betraktar koefficienten för ( it ) r r ! i expansionen av K ( t ) får vi r -kumulanten
Därför är medelvärdet och de tre följande ögonblicken om det
Beställa | Ögonblick | Kumulant |
---|---|---|
1 | ||
2 | ||
3 | ||
4 |
Skevhet
Skevheten är det tredje momentet centrerat kring medelvärdet dividerat med 3/2-potensen för standardavvikelsen, och för hermitfördelningen är ,
- Alltid , så fördelningens massa är koncentrerad till vänster.
Kurtosis
Kurtosen är det fjärde momentet centrerat kring medelvärdet, dividerat med kvadraten på variansen, och för Hermite är fördelningen,
Överskottet kurtos är bara en korrigering för att göra kurtosen av normalfördelningen lika med noll, och det är följande,
- Alltid , eller fördelningen har en hög akut topp runt medel- och fetare svansar.
Karakteristisk funktion
I en diskret fördelning definieras den karakteristiska funktionen för varje slumpvariabel med reellt värde som det förväntade värdet av där i är den imaginära enheten och t ∈ R
Denna funktion är relaterad till den momentgenererande funktionen via . Därför är den karakteristiska funktionen för denna fördelning,
Kumulativ fördelningsfunktion
Den kumulativa fördelningsfunktionen är,
Övriga fastigheter
- Denna distribution kan ha valfritt antal lägen . Som ett exempel har den anpassade fördelningen för McKendricks data uppskattade parametrar på a . Därför är de första fem uppskattade sannolikheterna 0,899, 0,012, 0,084, 0,001, 0,004.
- Denna fördelning är stängd under addition eller stängd under faltningar. Liksom Poisson-fördelningen har Hermite-fördelningen denna egenskap. Givet två Hermite-fördelade slumpvariabler och , sedan följer Y = X 1 + X 2 en hermitfördelning, .
- Denna fördelning tillåter en måttlig överspridning , så den kan användas när data har den här egenskapen. En slumpvariabel har överdispersion, eller så är den överdispergerad med avseende på Poisson-fördelningen, när dess varians är större än dess förväntade värde. Hermitfördelningen tillåter en måttlig överdispersion eftersom spridningskoefficienten alltid är mellan 1 och 2,
Parameteruppskattning
Moments metod
Medelvärdet och variansen för Hermite-fördelningen är och σ respektive. Så vi har dessa två ekvationer,
När vi löser dessa två ekvationer får vi ögonblicksberäkningarna och av en 1 och en 2 .
Eftersom en 1 och en 2 båda är positiva är estimatorn och tillåtna ( ≥ 0) endast om, .
Maximal sannolikhet
Givet ett urval X 1 , ..., X m är oberoende slumpvariabler som var och en har en Hermite-fördelning vill vi uppskatta värdet av parametrarna och . Vi vet att fördelningens medelvärde och varians är och respektive. Med hjälp av dessa två ekvationer,
Vi kan parametrisera sannolikhetsfunktionen med μ och d
Därför är log-likelihood-funktionen ,
var
Från log-likelihood-funktionen är sannolikhetsekvationerna ,
Enkla beräkningar visar att
- Och d kan hittas genom att lösa,
där
- Det kan visas att log-likelihood-funktionen är strikt konkav i parametrarnas domän. Följaktligen är MLE unik.
Sannolikhetsekvationen har inte alltid en lösning som den visar följande proposition,
Proposition: Låt X 1 , ..., X m komma från en generaliserad Hermite-fördelning med fast n . Då är parametrarnas MLE och om bara , där indikerar det empiriska faktoriella momentet av ordning 2.
- Anmärkning 1: Villkoret motsvarar där är det empiriska spridningsindexet
- Anmärkning 2: Om villkoret inte är uppfyllt är parametrarnas MLEs och det vill säga att data anpassas med hjälp av Poisson-fördelningen.
Nollfrekvens och medelvärdesskattare
Ett vanligt val för diskreta distributioner är den relativa nollfrekvensen för datamängden som är likställt med sannolikheten för noll under den antagna fördelningen. Observera att och . Efter exemplet med YC Patel (1976) resulterade det resulterande ekvationssystemet,
Vi får nollfrekvensen och medelvärdesskattaren en 1 av och en 2 av ,
där , är den relativa nollfrekvensen, n > 0
Det kan ses att för distributioner med hög sannolikhet vid 0 är effektiviteten hög.
- För tillåtna värden på och vi ha
Testar Poisson-antagandet
När Hermite-fördelning används för att modellera ett dataprov är det viktigt att kontrollera om Poisson-fördelningen räcker för att passa data. Att följa den parametriserade sannolikhetsmassfunktionen som används för att beräkna den maximala sannolikhetsskattaren är viktigt för att bekräfta följande hypotes,
Sannolikhetsförhållande test
Sannolikhetsförhållandets teststatistik för eremitfördelning är,
Där är log-likelihood-funktionen. Eftersom d = 1 tillhör gränsen för parametrarnas domän, under nollhypotesen, har W inte en asymptotisk -fördelning som förväntat. Det kan fastställas att den asymptotiska fördelningen av W är en 50:50 blandning av konstanten 0 och . α upper-tail procentenheterna för denna blandning är desamma som 2α upper-tail procentenheterna för en ; till exempel, för α = 0,01, 0,05 och 0,10 är de 5,41189, 2,70554 och 1,64237.
"Score" eller Lagrange multiplikatortest
Poängstatistiken är,
där m är antalet observationer.
Den asymptotiska fördelningen av poängteststatistiken under nollhypotesen är en -fördelning. Det kan vara bekvämt att använda en signerad version av poängtestet, det vill säga , som asymptotiskt följer en standardnormal.