Bayesiansk multivariat linjär regression

Inom statistik är Bayesiansk multivariat linjär regression en Bayesiansk metod för multivariat linjär regression, dvs linjär regression där det förutsagda utfallet är en vektor av korrelerade slumpvariabler snarare än en enda skalär slumpvariabel. En mer allmän behandling av detta tillvägagångssätt finns i artikeln MMSE estimator .

Detaljer

Betrakta ett regressionsproblem där den beroende variabeln som ska förutsägas inte är en enda skalär med reellt värde utan en m -längdsvektor av korrelerade reella tal. Liksom i standardregressionsuppsättningen finns det n observationer, där varje observation i består av k −1 förklarande variabler , grupperade i en vektor $\mathbf {x} _{i}$ med längden k (där en dummy variabel med värdet 1 har lagts till för att möjliggöra en interceptkoefficient). Detta kan ses som en uppsättning m relaterade regressionsproblem för varje observation i :

{\begin{aligned}y_{i,1}&=\mathbf {x} _{i}^{\mathsf {T}}{\boldsymbol {\beta }}_{1}+\epsilon _{i,1}\\&\;\;\vdots \\y_{i ,m}&=\mathbf {x} _{i}^{\mathsf {T}}{\boldsymbol {\beta }}_{m}+\epsilon _{i,m}\end{aligned}}

där uppsättningen fel

{\displaystyle \{\epsilon _{i,1},\ldots ,\epsilon _{i,m}\}} alla är

korrelerade. På motsvarande sätt kan det ses som ett enskilt regressionsproblem där resultatet är en radvektor

\mathbf {y} _{i}^{\mathsf {T}}

och regressionskoefficientvektorerna staplas nästa till varandra enligt följande:

\mathbf {y} _{i}^{\mathsf {T}}=\mathbf {x} _{i}^{\mathsf {T}}\mathbf {B} +{\boldsymbol {\epsilon }}_{i}^{\mathsf {T}}.

Koefficientmatrisen B är en $k\times m$ matris där koefficientvektorerna ${\boldsymbol {\beta }}_{1},\ldots ,{\ fetsymbol {\beta }}_{m}$ för varje regressionsproblem staplas horisontellt:

\mathbf {B} ={\begin{bmatrix}{\begin{pmatrix}\\{\boldsymbol {\beta }}_{1}\\\\\end{pmatrix}}\cdots {\begin {pmatrix}\\{\boldsymbol {\beta }}_{m}\\\\\end{pmatrix}}\end{bmatrix}}={\begin{bmatrix}{\begin{pmatrix}\beta _{ 1,1}\\\vdots \\\beta _{k,1}\end{pmatrix}}\cdots {\begin{pmatrix}\beta _{1,m}\\\vdots \\\beta _{ k,m}\end{pmatrix}}\end{bmatrix}}.

Brusvektorn ${\boldsymbol {\epsilon }}_{i}$ för varje observation i är gemensamt normal, så att resultaten för en given observation är korrelerade:

{\boldsymbol {\epsilon }}_{i}\sim N(0,{\boldsymbol {\Sigma }}_{\epsilon }).

Vi kan skriva hela regressionsproblemet i matrisform som:

\mathbf {Y} =\mathbf {X} \mathbf {B} +\mathbf {E} ,

där Y och E är

n\ gånger m

matriser. Designmatrisen X är en

n\ gånger k

matris med observationerna staplade vertikalt, som i standardinställningen för linjär regression :

\mathbf {X} ={\begin{bmatrix}\mathbf {x} _{1}^{\mathsf {T}}\\\mathbf {x} _{2}^{\mathsf {T} }\\\vdots \\\mathbf {x} _{n}^{\mathsf {T}}\end{bmatrix}}={\begin{bmatrix}x_{1,1}&\cdots &x_{1, k}\\x_{2,1}&\cdots &x_{2,k}\\\vdots &\ddots &\vdots \\x_{n,1}&\cdots &x_{n,k}\end{bmatrix }}.

Den klassiska, frekventistiska linjära minsta kvadraten -lösningen är att helt enkelt uppskatta matrisen av regressionskoefficienter ${\hat {\mathbf {B} }}$ med Moore-Penrose- pseudoinversen :

{\hat {\mathbf {B} }}=(\mathbf {X} ^{\mathsf {T}}\mathbf {X} )^{-1}\mathbf {X} ^{\mathsf { T}}\mathbf {Y} .

För att få den Bayesianska lösningen måste vi specificera den villkorade sannolikheten och sedan hitta det lämpliga konjugatet före. Som med det univariata fallet med linjär Bayesiansk regression kommer vi att finna att vi kan specificera ett naturligt villkorligt konjugat före (som är skalberoende).

Låt oss skriva vår villkorade sannolikhet som

\rho (\mathbf {E} |{\boldsymbol {\Sigma }}_{\epsilon })\ propto |{\boldsymbol {\Sigma }}_{\epsilon }|^{-n/2}\exp \left(-{\tfrac {1}{2}}\operatörsnamn {tr} \left(\mathbf { E} ^{\mathsf {T}}\mathbf {E} {\boldsymbol {\Sigma }}_{\epsilon }^{-1}\right)\right),

att skriva felet

\mathbf {E}

i termer av

\mathbf {Y} ,\mathbf {X} ,

och

\mathbf {B}

ger

\rho (\mathbf {Y} |\mathbf {X} ,\mathbf {B} ,{\boldsymbol {\Sigma }}_{\epsilon })\propto |{\boldsymbol {\Sigma }}_{\epsilon }|^{-n/2}\exp(-{ \tfrac {1}{2}}\operatörsnamn {tr} ((\mathbf {Y} -\mathbf {X} \mathbf {B} )^{\mathsf {T}}(\mathbf {Y} -\mathbf {X} \mathbf {B} ){\boldsymbol {\Sigma }}_{\epsilon }^{-1})),

Vi söker ett naturligt konjugat före—en leddensitet $\rho (\mathbf {B} ,\Sigma _{\epsilon })$ som är av samma funktionella form som sannolikheten. Eftersom sannolikheten är kvadratisk i $\mathbf {B}$ , skriver vi om sannolikheten så att den är normal i $(\mathbf {B} -{\hat {\mathbf {B} }})$ (avvikelsen från klassisk provuppskattning).

Genom att använda samma teknik som med Bayesiansk linjär regression , bryter vi ner den exponentiella termen med hjälp av en matrisform av kvadratsummans teknik. Här kommer vi dock också att behöva använda Matrix Differential Calculus ( Kronecker-produkt och vektoriseringstransformationer ).

Låt oss först tillämpa kvadratsumma för att få ett nytt uttryck för sannolikheten:

\rho (\mathbf {Y} |\mathbf {X} ,\mathbf {B} ,{\boldsymbol {\Sigma }}_{\epsilon })\propto |{\boldsymbol {\Sigma }}_{\epsilon }|^{-(nk)/2} \exp(-\operatörsnamn {tr} ({\tfrac {1}{2}}\mathbf {S} ^{\mathsf {T}}\mathbf {S} {\boldsymbol {\Sigma }}_{\epsilon }^{-1}))|{\boldsymbol {\Sigma }}_{\epsilon }|^{-k/2}\exp(-{\tfrac {1}{2}}\operatörsnamn {tr} ( (\mathbf {B} -{\hat {\mathbf {B} }})^{\mathsf {T}}\mathbf {X} ^{\mathsf {T}}\mathbf {X} (\mathbf {B } -{\hat {\mathbf {B} }}){\boldsymbol {\Sigma }}_{\epsilon }^{-1})),

\mathbf {S} =\mathbf {Y} -\mathbf {X} {\hat {\mathbf {B} }}

Vi skulle vilja ta fram en villkorad blankett för priorerna:

\rho (\mathbf {B} ,{\boldsymbol {\Sigma }}_{\epsilon })=\rho ({\boldsymbol {\Sigma }}_{\epsilon })\rho (\mathbf {B} |{\boldsymbol {\Sigma }}_{\epsilon }),

där

\rho ({\boldsymbol {\Sigma }}_{\epsilon })

är en invers Wishart-fördelning och

\rho (\mathbf { B} |{\boldsymbol {\Sigma }}_{\epsilon })

är någon form av normalfördelning i matrisen

\mathbf {B}

. Detta åstadkoms med hjälp av vektoriseringstransformationen , som omvandlar sannolikheten från en funktion av matriserna

\mathbf {B} ,{\hat {\mathbf {B} }}

till en funktion av vektorerna

{\boldsymbol {\beta }}=\operatörsnamn {vec} (\mathbf {B} ),{\hat {\boldsymbol {\beta }}}=\operatörsnamn {vec} ({\hat {\mathbf {B} }})

.

Skriva

\operatorname {tr} ((\mathbf {B} -{\hat {\mathbf {B} }})^{\mathsf {T}}\mathbf {X} ^{\mathsf {T}} \mathbf {X} (\mathbf {B} -{\hat {\mathbf {B} }}){\boldsymbol {\Sigma }}_{\epsilon }^{-1})=\operatörsnamn {vec} ( \mathbf {B} -{\hat {\mathbf {B} }})^{\mathsf {T}}\operatörsnamn {vec} (\mathbf {X} ^{\mathsf {T}}\mathbf {X} (\mathbf {B} -{\hat {\mathbf {B} }}){\boldsymbol {\Sigma }}_{\epsilon }^{-1})

Låta

\operatörsnamn {vec} (\mathbf {X } ^{\mathsf {T}}\mathbf {X} (\mathbf {B} -{\hat {\mathbf {B} }}){\boldsymbol {\Sigma }}_{\epsilon }^{-1 })=({\boldsymbol {\Sigma }}_{\epsilon }^{-1}\otimes \mathbf {X} ^{\mathsf {T}}\mathbf {X} )\operatörsnamn {vec} (\ mathbf {B} -{\hat {\mathbf {B} }}),

där

\mathbf {A} \otimes \mathbf {B}

betecknar Kronecker-produkten av matriserna A och B , en generalisering av den yttre produkten som multiplicerar en

m\ gånger n

matris med en

p\times q

-matris för att generera en

mp\times nq

-matris, bestående av varje kombination av produkter av element från de två matriserna.

Sedan

{\begin{aligned}&\operatorname {vec} (\mathbf {B} -{\hat {\mathbf {B} }})^{\mathsf {T}}({\boldsymbol {\Sigma }}_{\epsilon }^{-1}\otimes \mathbf {X} ^{\mathsf {T}}\mathbf {X} )\operatörsnamn {vec} (\mathbf {B} -{\hat {\ mathbf {B} }})\\&=({\boldsymbol {\beta }}-{\hat {\boldsymbol {\beta }}})^{\mathsf {T}}({\boldsymbol {\Sigma } }_{\epsilon }^{-1}\otimes \mathbf {X} ^{\mathsf {T}}\mathbf {X} )({\boldsymbol {\beta }}-{\hat {\boldsymbol {\ beta }}})\end{aligned}}

vilket kommer att leda till en sannolikhet som är normal i

({\boldsymbol {\beta }}-{\hat {\boldsymbol {\beta }}})

.

Med sannolikheten i en mer lätthanterlig form kan vi nu hitta ett naturligt (villkorligt) konjugat före.

Konjugera tidigare distribution

Det naturliga konjugatet före användning av den vektoriserade variabeln ${\boldsymbol {\beta }}$ har formen:

\rho ({\boldsymbol {\beta }},{\boldsymbol {\Sigma }}_{\epsilon }) =\rho ({\boldsymbol {\Sigma }}_{\epsilon })\rho ({\boldsymbol {\beta }}|{\boldsymbol {\Sigma }}_{\epsilon }),

var

\rho ({\boldsymbol {\Sigma }}_{\epsilon })\sim {\mathcal {W}}^{-1}(\ mathbf {V} _{0},{\boldsymbol {\nu }}_{0})

och

\rho ({\boldsymbol {\beta }}|{\boldsymbol {\Sigma }}_{\epsilon })\sim N({\boldsymbol {\beta }}_{0},{\boldsymbol { \Sigma }}_{\epsilon }\otimes {\boldsymbol {\Lambda }}_{0}^{-1}).

Posterior distribution

Med hjälp av ovanstående förutsättning och sannolikhet kan den bakre fördelningen uttryckas som:

{\begin{aligned}\rho ({\boldsymbol {\ beta }},{\boldsymbol {\Sigma }}_{\epsilon }|\mathbf {Y} ,\mathbf {X} )\propto {}&|{\boldsymbol {\Sigma }}_{\epsilon }| ^{-({\boldsymbol {\nu }}_{0}+m+1)/2}\exp {(-{\tfrac {1}{2}}\operatörsnamn {tr} (\mathbf {V} _{0}{\boldsymbol {\Sigma }}_{\epsilon }^{-1}))}\\&\times |{\boldsymbol {\Sigma }}_{\epsilon }|^{-k/ 2}\exp {(-{\tfrac {1}{2}}\operatörsnamn {tr} ((\mathbf {B} -\mathbf {B} _{0})^{\mathsf {T}}{\ fetsymbol {\Lambda }}_{0}(\mathbf {B} -\mathbf {B} _{0}){\boldsymbol {\Sigma }}_{\epsilon }^{-1}))}\\ &\times |{\boldsymbol {\Sigma }}_{\epsilon }|^{-n/2}\exp {(-{\tfrac {1}{2}}\operatörsnamn {tr} ((\mathbf { Y} -\mathbf {XB} )^{\mathsf {T}}(\mathbf {Y} -\mathbf {XB} ){\boldsymbol {\Sigma }}_{\epsilon }^{-1})) },\end{aligned}}

där

\operatörsnamn {vec} (\mathbf {B} _{0})={\boldsymbol {\beta }}_{0}

. Termerna som involverar

\mathbf {B}

kan grupperas (med

{\boldsymbol {\Lambda }}_{0}=\mathbf {U} ^{\mathsf {T }}\mathbf {U}

) med:

{\begin{aligned}&\left(\mathbf {B} -\mathbf {B} _{0}\right)^{\mathsf {T}}{\boldsymbol {\Lambda }}_{0}\left(\mathbf {B} -\mathbf {B} _{0}\right)+\left(\mathbf {Y} -\mathbf {XB} \right)^{ \mathsf {T}}\left(\mathbf {Y} -\mathbf {XB} \right)\\={}&\left({\begin{bmatrix}\mathbf {Y} \\\mathbf {U} \mathbf {B} _{0}\end{bmatrix}}-{\begin{bmatrix}\mathbf {X} \\\mathbf {U} \end{bmatrix}}\mathbf {B} \right)^{ \mathsf {T}}\left({\begin{bmatrix}\mathbf {Y} \\\mathbf {U} \mathbf {B} _{0}\end{bmatrix}}-{\begin{bmatrix}\ mathbf {X} \\\mathbf {U} \end{bmatrix}}\mathbf {B} \right)\\={}&\left({\begin{bmatrix}\mathbf {Y} \\\mathbf { U} \mathbf {B} _{0}\end{bmatrix}}-{\begin{bmatrix}\mathbf {X} \\\mathbf {U} \end{bmatrix}}\mathbf {B} _{n }\right)^{\mathsf {T}}\left({\begin{bmatrix}\mathbf {Y} \\\mathbf {U} \mathbf {B} _{0}\end{bmatrix}}-{ \begin{bmatrix}\mathbf {X} \\\mathbf {U} \end{bmatrix}}\mathbf {B} _{n}\right)+\left(\mathbf {B} -\mathbf {B} _{n}\right)^{\mathsf {T}}\left(\mathbf {X} ^{\mathsf {T}}\mathbf {X} +{\boldsymbol {\Lambda }}_{0}\ höger)\left(\mathbf {B} -\mathbf {B} _{n}\right)\\={}&\left(\mathbf {Y} -\mathbf {X} \mathbf {B} _{ n}\right)^{\mathsf {T}}\left(\mathbf {Y} -\mathbf {X} \mathbf {B} _{n}\right)+\left(\mathbf {B} _{ 0}-\mathbf {B} _{n}\right)^{\mathsf {T}}{\boldsymbol {\Lambda }}_{0}\left(\mathbf {B} _{0}-\mathbf {B} _{n}\right)+\left(\mathbf {B} -\mathbf {B} _{n}\right)^{\mathsf {T}}\left(\mathbf {X} ^{ \mathsf {T}}\mathbf {X} +{\boldsymbol {\Lambda }}_{0}\right)\left(\mathbf {B} -\mathbf {B} _{n}\right),\ end{aligned}}

med

\mathbf {B} _{n}=\left(\mathbf {X} ^{\mathsf {T}}\mathbf {X} +{\boldsymbol {\Lambda }}_{0}\right) ^{-1}\left(\mathbf {X} ^{\mathsf {T}}\mathbf {X} {\hat {\mathbf {B} }}+{\boldsymbol {\Lambda }}_{0} \mathbf {B} _{0}\right)=\left(\mathbf {X} ^{\mathsf {T}}\mathbf {X} +{\boldsymbol {\Lambda }}_{0}\right) ^{-1}\left(\mathbf {X} ^{\mathsf {T}}\mathbf {Y} +{\boldsymbol {\Lambda }}_{0}\mathbf {B} _{0}\right ).

Detta gör att vi nu kan skriva baksidan i en mer användbar form:

{\begin{aligned}\rho ({\boldsymbol {\beta }},{\boldsymbol {\Sigma }}_{\epsilon }|\mathbf {Y} ,\mathbf {X} )\propto { }&|{\boldsymbol {\Sigma }}_{\epsilon }|^{-({\boldsymbol {\nu }}_{0}+m+n+1)/2}\exp {(-{\ tfrac {1}{2}}\operatörsnamn {tr} ((\mathbf {V} _{0}+(\mathbf {Y} -\mathbf {XB_{n}} )^{\mathsf {T}}( \mathbf {Y} -\mathbf {XB_{n}} )+(\mathbf {B} _{n}-\mathbf {B} _{0})^{\mathsf {T}}{\boldsymbol {\ Lambda }}_{0}(\mathbf {B} _{n}-\mathbf {B} _{0})){\boldsymbol {\Sigma }}_{\epsilon }^{-1}))} \\&\times |{\boldsymbol {\Sigma }}_{\epsilon }|^{-k/2}\exp {(-{\tfrac {1}{2}}\operatörsnamn {tr} ((\ mathbf {B} -\mathbf {B} _{n})^{\mathsf {T}}(\mathbf {X} ^{T}\mathbf {X} +{\boldsymbol {\Lambda }}_{0 })(\mathbf {B} -\mathbf {B} _{n}){\boldsymbol {\Sigma }}_{\epsilon }^{-1}))}.\end{aligned}}

Detta tar formen av en omvänd Wishart-fördelning gånger en Matrix-normalfördelning :

\rho ({\boldsymbol {\Sigma }}_{\epsilon }|\mathbf {Y} ,\mathbf {X } )\sim {\mathcal {W}}^{-1}(\mathbf {V} _{n},{\boldsymbol {\nu }}_{n})

och

\rho (\mathbf {B} |\mathbf {Y} ,\mathbf {X} ,{\boldsymbol {\Sigma }}_{\epsilon })\sim {\mathcal {MN}}_{k ,m}(\mathbf {B} _{n},{\boldsymbol {\Lambda }}_{n}^{-1},{\boldsymbol {\Sigma }}_{\epsilon }).

Parametrarna för denna posterior ges av:

\mathbf {V} _{n}=\mathbf {V} _{0}+(\mathbf {Y} -\mathbf {XB_{n}} )^{\mathsf {T}}(\mathbf {Y} -\mathbf {XB_{n}} )+( \mathbf {B} _{n}-\mathbf {B} _{0})^{\mathsf {T}}{\boldsymbol {\Lambda }}_{0}(\mathbf {B} _{n} -\mathbf {B} _{0})

{\boldsymbol {\nu }}_{n}={\boldsymbol {\nu }}_{0}+n

\mathbf {B} _{n}=(\mathbf {X} ^{\mathsf {T}}\mathbf { X} +{\boldsymbol {\Lambda }}_{0})^{-1}(\mathbf {X} ^{\mathsf {T}}\mathbf {Y} +{\boldsymbol {\Lambda }}_ {0}\mathbf {B} _{0})

{\boldsymbol {\Lambda }}_{n}=\mathbf {X} ^{\mathsf {T}}\mathbf {X} +{\boldsymbol {\Lambda } }_{0}

Se även

Box, GEP ; Tiao, GC (1973). "8". Bayesiansk slutledning i statistisk analys . Wiley. ISBN 0-471-57428-7 .
Geisser, S. (1965). "Bayesisk uppskattning i multivariat analys". The Annals of Mathematical Statistics . 36 (1): 150–159. JSTOR 2238083 .
Tiao, GC; Zellner, A. (1964). "Om den Bayesianska uppskattningen av multivariat regression". Journal of the Royal Statistical Society. Serie B (metodologisk) . 26 (2): 277–285. JSTOR 2984424 .