Noll-uppblåst modell
Inom statistik är en nolluppblåst modell en statistisk modell baserad på en nolluppblåst sannolikhetsfördelning , dvs en fördelning som tillåter frekventa nollvärderade observationer.
Introduktion till nolluppblåsta modeller
Nolluppblåsta modeller används ofta i analysen av räknedata, till exempel antalet besök en patient gör på akuten under ett år, eller antalet fiskar som fångas på en dag i en sjö. Räknedata kan ha värden 0, 1, 2, … (icke-negativa heltalsvärden). Andra exempel på räkningsdata är antalet träffar som registrerats av en geigerräknare på en minut, patientdagar på sjukhuset, gjorda mål i en fotbollsmatch och antalet episoder av hypoglykemi per år för en patient med diabetes.
För statistisk analys representeras fördelningen av räkningarna ofta med hjälp av en Poisson-fördelning eller en negativ binomialfördelning . Hilbe noterar att "Poisson-regression är traditionellt uppfattad som den grundläggande räknemodellen på vilken en mängd andra räknemodeller är baserade." I en Poisson-modell är "... den slumpmässiga variabeln räknesvaret och parametern (lambda) är medelvärdet. Ofta kallas uttrycks (mu) när man refererar till Poisson och traditionella negativa binomiska modeller."
I vissa data är antalet nollor större än vad som skulle förväntas med en Poisson-fördelning eller en negativ binomialfördelning . Data med ett sådant överskott av nollräkningar beskrivs som nolluppblåst.
Exempelhistogram av nolluppblåsta Poisson-fördelningar med medelvärdet på 5 eller 10 och andelen nollinflation på 0,2 eller 0,5 visas nedan, baserat på R-programmet ZeroInflPoiDistPlots.R från Bilder och Laughlin.
Exempel på nolluppblåst räknedata
- Fisk räknas "... anta att vi registrerade antalet fiskar som fångats på olika sjöar under 4-timmars fiskeresor till Minnesota. Vissa sjöar i Minnesota är för grunda för att fisken ska överleva vintern, så fiske i dessa sjöar ger ingen fångst. Å andra sidan, även på en sjö där det finns gott om fisk, kan vi eller kanske inte fånga någon fisk på grund av förhållanden eller vår egen kompetens. Således kommer antalet fångade fiskar att vara noll om sjön inte bär fisk, och kommer att vara noll, en eller flera om den gör det.”
- Antal utdragna visdomständer. Antalet visdomständer som en person har fått utdraget kan variera från 0 till 4. Vissa individer, ungefär en tredjedel av befolkningen, har inga visdomständer. För dessa individer kommer antalet utdragna visdomständer alltid att vara noll. För andra individer kommer antalet extraherade att vara mellan 0 och 4, där en 0 indikerar att försökspersonen ännu inte, och kanske aldrig, har fått någon av sina 4 visdomständer utdragna.
- Publikationer av doktorander. Long undersökte antalet publikationer av 915 doktorander i biokemi under de tre sista åren av sina doktorandstudier. Andelen kandidater med noll publikationer översteg antalet förutspått av en Poisson-modell. "Har länge hävdat att doktoranderna kan delas in i två distinkta grupper: "förlag" (kanske strävar efter en akademisk karriär) och "icke-förlag" (som söker andra karriärvägar). En rimlig form av förklaring är att de observerade nolltalen återspeglar en blandning av de två latenta klasserna – de som helt enkelt inte har publicerat ännu och de som sannolikt aldrig kommer att publicera.”
Noll-uppblåsta data som en blandning av två distributioner
Som exemplen ovan visar kan nolluppblåsta data uppstå som en blandning av två distributioner. Den första fördelningen genererar nollor. Den andra fördelningen, som kan vara en Poisson-fördelning , en negativ binomialfördelning eller annan räknefördelning, genererar räkningar, av vilka några kan vara nollor.”.
I den statistiska litteraturen kan olika författare använda olika namn för att skilja nollor från de två fördelningarna. Vissa författare beskriver nollor som genereras av den första (binära) fördelningen som "strukturella" och nollor som genereras av den andra (räkne-)fördelningen som "slumpmässiga". Andra författare använder terminologin "immun" och "mottaglig" för de binära och räknade nollorna , respektive
Nolluppblåst Poisson
En välkänd nolluppblåst modell är Diane Lamberts nolluppblåsta Poisson-modell, som avser en slumpmässig händelse som innehåller överskott av nollräkningsdata i tidsenhet. Till exempel skulle antalet försäkringsskador inom en befolkning för en viss typ av risk nollhöjas av de personer som inte har tecknat en försäkring mot risken och därmed inte kan göra anspråk. Den nolluppblåsta Poisson-modellen (ZIP) blandar två nollgenererande processer. Den första processen genererar nollor. Den andra processen styrs av en Poisson-fördelning som genererar räkningar, av vilka några kan vara noll. Blandningsfördelningen beskrivs enligt följande :
där utfallsvariabeln har något icke-negativt heltalsvärde, är det förväntade Poisson-talet för i { e individen; är sannolikheten för extra nollor.
Medelvärdet är och variansen är .
Uppskattare av ZIP-parametrar
Metoden för momentuppskattare ges av
där är stickprovets medelvärde och är provvariansen.
Den maximala sannolikhetsskattaren kan hittas genom att lösa följande ekvation
där är den observerade andelen nollor.
En sluten form lösning av denna ekvation ges av
med som huvudgrenen av Lamberts W-funktion och
- .
Alternativt kan ekvationen lösas genom iteration.
Den maximala sannolikhetsskattaren för ges av
Relaterade modeller
1994 övervägde Greene den nolluppblåsta negativa binomialmodellen (ZINB). Daniel B. Hall anpassade Lamberts metodik till en situation med övre gränser och fick därigenom en nolluppblåst binomial (ZIB) modell.
Diskret pseudosammansatt Poisson-modell
Om räknedata är sådan att sannolikheten för noll är större än sannolikheten för icke-noll, dvs.
då följer de diskreta data diskreta pseudosammansatta Poisson-fördelning .
Faktum är att låt vara den sannolikhetsgenererande funktionen för . Om då . Sedan från Wiener–Lévy-satsen har displaystyle sannolikhetsgenererande funktionen av den diskreta pseudosammansättningen Poisson-fördelning .
Vi säger att den diskreta slumpvariabeln uppfyller sannolikhetsgenererande funktionskarakterisering
har en diskret pseudoförening Poisson-fördelning med parametrar
När alla är icke-negativa, är det den diskreta sammansatta Poisson-fördelningen (icke-Poisson-fall) med överdispersionsegenskapen .
Se även
- Poissonfördelning
- Noll-trunkerad Poisson-fördelning
- Fördelning av sammansatt Poisson
- Sparsam uppskattning
- Häck modell