Grupperad Dirichlet-distribution

I statistik är den grupperade Dirichlet-fördelningen (GDD) en multivariat generalisering av Dirichlet-fördelningen. Den beskrevs först av Ng et al. 2008. Den grupperade Dirichlet-fördelningen uppstår i analysen av kategoriska data där vissa observationer kan falla in i vilken som helst av en uppsättning av andra "skarpa" kategorier. Man kan till exempel ha en datamängd bestående av fall och kontroller under två olika förutsättningar. Med fullständiga data bildar korsklassificeringen av sjukdomsstatus en 2(fall/kontroll)-x-(tillstånd/inget tillstånd) tabell med cellsannolikheter

	Behandling	Ingen behandling
Kontroller	θ ₁	θ ₂
Fall	θ ₃	θ ₄

Om emellertid uppgifterna inkluderar, till exempel, icke-respondenter som är kända för att vara kontroller eller fall, bildar korsklassificeringen av sjukdomsstatus en 2-x-3-tabell. Sannolikheten för den sista kolumnen är summan av sannolikheterna för de två första kolumnerna i varje rad, t.ex.

	Behandling	Ingen behandling	Saknas
Kontroller	θ ₁	θ ₂	θ ₁ + θ ₂
Fall	θ ₃	θ ₄	θ ₃ + θ ₄

GDD tillåter fullständig uppskattning av cellsannolikheterna under sådana aggregeringsförhållanden.

Sannolikhetsfördelning

Betrakta den slutna simplexmängden ${\mathcal {T}}_{n}=\left\{\left(x_{1},\ ldots x_{n}\right)\left|x_{i}\geq 0,i=1,\cdots ,n,\sum _{i=1}^{n}x_{n}=1\right.\ höger\}$ och $\mathbf {x} \in {\mathcal {T}}_{n}$ . Skriver $\mathbf {x} _{-n}=\left(x_{1},\ldots ,x_{n-1}\right)$ för de första $n-1$ elementen i en medlem av ${\displaystyle {\mathcal {T}}_{n}} ,$ fördelningen av $\mathbf {x}$ för två partitioner har en densitetsfunktion som ges av

\operatörsnamn {GD} _{n,2,s}\left(\left.\mathbf {x} _{-n}\right|\mathbf {a} , \mathbf {b} \right)={\frac {\left(\prod _{i=1}^{n}x_{i}^{a_{i}-1}\right)\cdot \left(\ summa _{i=1}^{s}x_{i}\right)^{b_{1}}\cdot \left(\summa _{i=s+1}^{n}x_{i}\right )^{b_{2}}}{\operatörsnamn {\mathrm {B} } \left(a_{1},\ldots ,a_{s}\right)\cdot \operatörsnamn {\mathrm {B} } \left (a_{s+1},\ldots ,a_{n}\right)\cdot \operatörsnamn {\mathrm {B} } \left(b_{1}+\summa _{i=1}^{s}a_ {i},b_{2}+\summa _{i=s+1}^{n}a_{i}\right)}}

där $\operatorname {\mathrm {B} } \left(\mathbf {a} \right)$ är den multivariata betafunktionen .

Ng et al. fortsatte med att definiera en m- partition grupperad Dirichlet-fördelning med densiteten $\mathbf {x} _{-n}$ given av

\operatörsnamn {GD} _{n,m,\mathbf {s} }\left(\left.\mathbf {x} _{-n}\right|\mathbf { a} ,\mathbf {b} \right)=c_{m}^{-1}\cdot \left(\prod _{i=1}^{n}x_{i}^{a_{i}-1 }\right)\cdot \prod _{j=1}^{m}\left(\summa _{k=s_{j-1}+1}^{s_{j}}x_{k}\right) ^{b_{j}}

där $\mathbf {s} =\left(s_{1},\ldots ,s_{m}\right)$ är en vektor av heltal med $0=s_{0}<s_{1}\leqslant \cdots \leqslant s_{m}=n$ . Normaliseringskonstanten ges av

c_{m}=\left\{\prod _{j=1}^{m}\operatörsnamn {\mathrm {B} } \left(a_{ s_{j-1}+1},\ldots ,a_{s_{j}}\right)\right\}\cdot \operatörsnamn {\mathrm {B} } \left(b_{1}+\summa _{ k=1}^{s_{1}}a_{k},\ldots ,b_{m}+\sum _{k=s_{m-1}+1}^{s_{m}}a_{k} \höger)

Författarna fortsatte med att använda dessa distributioner i samband med tre olika tillämpningar inom medicinsk vetenskap.