I statistik är den grupperade Dirichlet-fördelningen (GDD) en multivariat generalisering av Dirichlet-fördelningen. Den beskrevs först av Ng et al. 2008. Den grupperade Dirichlet-fördelningen uppstår i analysen av kategoriska data där vissa observationer kan falla in i vilken som helst av en uppsättning av andra "skarpa" kategorier. Man kan till exempel ha en datamängd bestående av fall och kontroller under två olika förutsättningar. Med fullständiga data bildar korsklassificeringen av sjukdomsstatus en 2(fall/kontroll)-x-(tillstånd/inget tillstånd) tabell med cellsannolikheter
|
Behandling |
Ingen behandling |
Kontroller |
θ 1
|
θ 2
|
Fall |
θ 3
|
θ 4
|
Om emellertid uppgifterna inkluderar, till exempel, icke-respondenter som är kända för att vara kontroller eller fall, bildar korsklassificeringen av sjukdomsstatus en 2-x-3-tabell. Sannolikheten för den sista kolumnen är summan av sannolikheterna för de två första kolumnerna i varje rad, t.ex.
|
Behandling |
Ingen behandling |
Saknas |
Kontroller |
θ 1
|
θ 2
|
θ 1 + θ 2
|
Fall |
θ 3
|
θ 4
|
θ 3 + θ 4
|
GDD tillåter fullständig uppskattning av cellsannolikheterna under sådana aggregeringsförhållanden.
Sannolikhetsfördelning
Betrakta den slutna simplexmängden och . Skriver för de första elementen i en medlem av fördelningen av för två partitioner har en densitetsfunktion som ges av
där är den multivariata betafunktionen .
Ng et al. fortsatte med att definiera en m- partition grupperad Dirichlet-fördelning med densiteten given av
där är en vektor av heltal med . Normaliseringskonstanten ges av
Författarna fortsatte med att använda dessa distributioner i samband med tre olika tillämpningar inom medicinsk vetenskap.