Grupperad Dirichlet-distribution

I statistik är den grupperade Dirichlet-fördelningen (GDD) en multivariat generalisering av Dirichlet-fördelningen. Den beskrevs först av Ng et al. 2008. Den grupperade Dirichlet-fördelningen uppstår i analysen av kategoriska data där vissa observationer kan falla in i vilken som helst av en uppsättning av andra "skarpa" kategorier. Man kan till exempel ha en datamängd bestående av fall och kontroller under två olika förutsättningar. Med fullständiga data bildar korsklassificeringen av sjukdomsstatus en 2(fall/kontroll)-x-(tillstånd/inget tillstånd) tabell med cellsannolikheter

Behandling Ingen behandling
Kontroller θ 1 θ 2
Fall θ 3 θ 4

Om emellertid uppgifterna inkluderar, till exempel, icke-respondenter som är kända för att vara kontroller eller fall, bildar korsklassificeringen av sjukdomsstatus en 2-x-3-tabell. Sannolikheten för den sista kolumnen är summan av sannolikheterna för de två första kolumnerna i varje rad, t.ex.

Behandling Ingen behandling Saknas
Kontroller θ 1 θ 2 θ 1 + θ 2
Fall θ 3 θ 4 θ 3 + θ 4

GDD tillåter fullständig uppskattning av cellsannolikheterna under sådana aggregeringsförhållanden.

Sannolikhetsfördelning

Betrakta den slutna simplexmängden och . Skriver för de första elementen i en medlem av fördelningen av för två partitioner har en densitetsfunktion som ges av

där är den multivariata betafunktionen .

Ng et al. fortsatte med att definiera en m- partition grupperad Dirichlet-fördelning med densiteten given av

där är en vektor av heltal med . Normaliseringskonstanten ges av

Författarna fortsatte med att använda dessa distributioner i samband med tre olika tillämpningar inom medicinsk vetenskap.