Bevis som involverar vanliga minsta kvadrater

Syftet med den här sidan är att tillhandahålla kompletterande material för den vanliga artikeln med minsta kvadrater , minska belastningen på huvudartikeln med matematik och förbättra dess tillgänglighet, samtidigt som expositionen behålls fullständigt.

Härledning av normalekvationerna

Definiera ${\displaystyle i}:$ e residual som ska vara

r_{i}=y_{i}-\sum _{j=1}^{n}X_{ij}\beta _{j}.

Sedan kan målet $S$ skrivas om

S=\sum _{i=1}^{m}r_{i}^{2}.

Med tanke på att S är konvex, minimeras den när dess gradientvektor är noll (Detta följer per definition: om gradientvektorn inte är noll finns det en riktning i vilken vi kan röra oss för att minimera den ytterligare – se maxima och minima .) element i gradientvektorn är partiella derivator av S med avseende på parametrarna:

{\frac {\partial S}{\partial \beta _{j}}}=2\sum _{i=1}^{m}r_{i}{\frac {\partial r_{i} }{\partial \beta _{j}}}\qquad (j=1,2,\dots ,n).

Derivaten är

{\frac {\partial r_{i}}{\partial \beta _{j}}}=-X_{ij}.

Substitution av uttrycken för residualerna och derivatorna i gradientekvationerna ger

{\frac {\partial S}{\partial \beta _{j}}}=2\summa _{i=1}^{m}\left(y_{i}-\summa _{k= 1}^{n}X_{ik}\beta _{k}\right)(-X_{ij})\qquad (j=1,2,\dots ,n).

Så om ${\widehat {\beta }}$ minimerar S , har vi

2\sum _{i=1}^{m}\left(y_{i}-\sum _{k=1}^{n}X_{ik}{\widehat {\beta}}_{ k}\right)(-X_{ij})=0\qquad (j=1,2,\dots ,n).

Vid omarrangemang får vi de normala ekvationerna :

\sum _{i=1}^{m}\sum _{k=1}^{n}X_{ij}X_{ik}{\widehat {\beta }}_{k}=\sum _{i=1}^{m}X_{ij}y_{i}\qquad (j=1,2,\dots ,n).

Normalekvationerna skrivs i matrisnotation som

(\mathbf {X} ^{\mathrm {T} }\mathbf {X} ){\widehat {\boldsymbol {\beta }}}=\mathbf { X} ^{\mathrm {T} }\mathbf {y}

(där X ^T är matristransponeringen av X ).

Lösningen av normalekvationerna ger vektorn ${\widehat {\boldsymbol {\beta }}}$ för de optimala parametervärdena.

Härledning direkt i termer av matriser

Normalekvationerna kan härledas direkt från en matrisrepresentation av problemet enligt följande. Målet är att minimera

S({\boldsymbol {\beta }})={\bigl \|}\mathbf {y} -\mathbf {X} {\boldsymbol {\beta }}{\bigr \|}^{2} =(\mathbf {y} -\mathbf {X} {\boldsymbol {\beta }})^{\rm {T}}(\mathbf {y} -\mathbf {X} {\boldsymbol {\beta }} )=\mathbf {y} ^{\rm {T}}\mathbf {y} -{\boldsymbol {\beta }}^{\rm {T}}\mathbf {X} ^{\rm {T}} \mathbf {y} -\mathbf {y} ^{\rm {T}}\mathbf {X} {\boldsymbol {\beta }}+{\boldsymbol {\beta }}^{\rm {T}}\ mathbf {X} ^{\rm {T}}\mathbf {X} {\boldsymbol {\beta }}.

Här ${\displaystyle ({\boldsymbol {\beta }}^{\rm {T}}\mathbf {X} ^{\rm {T}}\mathbf { y} )^{\rm {T}}=\mathbf {y} ^{\rm {T}}\mathbf {X} {\boldsymbol {\beta }}} har dimensionen 1x1 (antalet kolumner$ i $\mathbf {y}$ ), så det är en skalär och lika med sin egen transponering, därav ${\boldsymbol {\beta }}^{\rm { T}}\mathbf {X} ^{\rm {T}}\mathbf {y} =\mathbf {y} ^{\rm {T}}\mathbf {X} {\boldsymbol {\beta }}$ och mängden att minimera blir

S({\boldsymbol {\beta }})=\mathbf {y} ^{\rm {T}}\mathbf {y} -2{\boldsymbol {\beta }}^{\rm {T} }\mathbf {X} ^{\rm {T}}\mathbf {y} +{\boldsymbol {\beta }}^{\rm {T}}\mathbf {X} ^{\rm {T}}\ mathbf {X} {\boldsymbol {\beta }}.

Att differentiera detta med avseende på ${\boldsymbol {\beta }}$ och likställa med noll för att uppfylla första ordningens villkor ger

-\mathbf {X} ^{\rm {T}}\mathbf {y} +(\mathbf {X} ^{\rm {T}} \mathbf {X} ){\boldsymbol {\beta }}=0,

vilket är ekvivalent med de ovan givna normalekvationerna. Ett tillräckligt villkor för tillfredsställelse av andra ordningens villkor för ett minimum är att $\mathbf {X}$ har full kolumnrankning, i vilket fall $\mathbf {X} ^{\rm { T}}\mathbf {X}$ är positivt definitivt .

Härledning utan kalkyl

När $\mathbf {X} ^{\rm {T}}\mathbf {X}$ är positiv definitiv, formeln för minimeringsvärdet för ${\boldsymbol {\beta }}$ kan härledas utan användning av derivat. Kvantiteten

S({\boldsymbol {\beta }})=\mathbf {y} ^{\rm {T}} \mathbf {y} -2{\boldsymbol {\beta }}^{\rm {T}}\mathbf {X} ^{\rm {T}}\mathbf {y} +{\boldsymbol {\beta }} ^{\rm {T}}\mathbf {X} ^{\rm {T}}\mathbf {X} {\boldsymbol {\beta }}

kan skrivas som

{\ displaystyle \langle {\boldsymbol {\beta }},{\boldsymbol {\beta }}\rangle -2\langle {\boldsymbol {\beta }},(\mathbf {X} ^{\rm {T}}\ mathbf {X} )^{-1}\mathbf {X} ^{\rm {T}}\mathbf {y} \rangle +\langle (\mathbf {X} ^{\rm {T}}\mathbf { X} )^{-1}\mathbf {X} ^{\rm {T}}\mathbf {y} ,(\mathbf {X} ^{\rm {T}}\mathbf {X} )^{- 1}\mathbf {X} ^{\rm {T}}\mathbf {y} \rangle +C,}

där $C$ endast beror på $\mathbf {y}$ och $\mathbf {X}$ , och $\langle \cdot ,\cdot \rangle$ är den inre produkten som definieras av

\langle x,y\rangle =x^{\rm {T}}(\mathbf {X} ^{\rm {T}}\mathbf {X} )y.

Det följer att $S({\boldsymbol {\beta }})$ är lika med

\langle {\boldsymbol {\beta }}-(\mathbf {X} ^ {\rm {T}}\mathbf {X} )^{-1}\mathbf {X} ^{\rm {T}}\mathbf {y} ,{\boldsymbol {\beta }}-(\mathbf { X} ^{\rm {T}}\mathbf {X} )^{-1}\mathbf {X} ^{\rm {T}}\mathbf {y} \rangle +C

och därför minimeras exakt när

{\boldsymbol {\beta }}-(\mathbf {X} ^{\rm {T}}\mathbf {X} )^{- 1}\mathbf {X} ^{\rm {T}}\mathbf {y} =0.

Generalisering för komplexa ekvationer

I allmänhet kan koefficienterna för matriserna $\mathbf {X} ,{\boldsymbol {\beta }}$ och $\mathbf {y}$ vara komplexa. Genom att använda en hermitisk transponering istället för en enkel transponering är det möjligt att hitta en vektor ${\boldsymbol {\widehat {\beta }}}$ som minimerar $S({\boldsymbol {\beta }})$ , precis som för det verkliga matrisfallet. För att få normalekvationerna följer vi en liknande väg som i tidigare härledningar:

\displaystyle S({\boldsymbol {\beta }})=\langle \mathbf {y} -\mathbf { X} {\boldsymbol {\beta }},\mathbf {y} -\mathbf {X} {\boldsymbol {\beta }}\rangle =\langle \mathbf {y} ,\mathbf {y} \rangle -{ \overline {\langle \mathbf {X} {\boldsymbol {\beta }},\mathbf {y} \rangle }}-{\overline {\langle \mathbf {y} ,\mathbf {X} {\boldsymbol { \beta }}\rangle }}+\langle \mathbf {X} {\boldsymbol {\beta }},\mathbf {X} {\boldsymbol {\beta }}\rangle =\mathbf {y} ^{\rm {T}}{\overline {\mathbf {y} }}-{\boldsymbol {\beta }}^{\dolk }\mathbf {X} ^{\dolk }\mathbf {y} -\mathbf {y} ^{\dolk }\mathbf {X} {\boldsymbol {\beta }}+{\boldsymbol {\beta }}^{\rm {T}}\mathbf {X} ^{\rm {T}}{\ overline {\mathbf {X} }}{\overline {\boldsymbol {\beta }}},

där $\dagger$ står för Hermitian transpose.

Vi bör nu ta derivator av $S({\boldsymbol {\beta }})$ med avseende på var och en av koefficienterna $\beta _{j}$ , men först separerar vi reella och imaginära delar för att hantera de konjugerade faktorerna i ovanstående uttryck. För $\beta _{j}$ har vi

\beta _{j}=\beta _{j}^{R}+i\beta _{j}^{I}

och derivaten ändras till

{\frac {\partial S}{\partial \beta _{j}}}={\frac {\partial S}{\partial \beta _{j}^{R}}}{\frac { \partial \beta _{j}^{R}}{\partial \beta _{j}}}+{\frac {\partial S}{\partial \beta _{j}^{I}}}{\ frac {\partial \beta _{j}^{I}}{\partial \beta _{j}}}={\frac {\partial S}{\partial \beta _{j}^{R}}} -i{\frac {\partial S}{\partial \beta _{j}^{I}}}\quad (j=1,2,3,\ldots ,n).

Efter att ha skrivit om $S({\boldsymbol {\beta }})$ i summeringsformen och skrivit $\beta _{j}$ explicit, kan vi beräkna båda partiella derivator med resultatet:

{\begin{aligned}{\frac {\partial S}{\partial \beta _{j}^{R}}}={}&-\summa _ {i=1}^{m}{\Big (}{\overline {X}}_{ij}y_{i}+{\overline {y}}_{i}X_{ij}{\Big )} +2\summa _{i=1}^{m}X_{ij}{\överlinje {X}}_{ij}\beta _{j}^{R}+\summa _{i=1}^{ m}\sum _{k\neq j}^{n}{\Big (}X_{ij}{\overline {X}}_{ik}{\overline {\beta}}_{k}+\beta _{k}X_{ik}{\overline {X}}_{ij}{\Big )},\\[8pt]&{}-i{\frac {\partial S}{\partial \beta _{ j}^{I}}}=\summa _{i=1}^{m}{\Big (}{\overline {X}}_{ij}y_{i}-{\overline {y}}_ {i}X_{ij}{\Big )}-2i\sum _{i=1}^{m}X_{ij}{\overline {X}}_{ij}\beta _{j}^{I }+\summa _{i=1}^{m}\summa _{k\neq j}^{n}{\Big (}X_{ij}{\overline {X}}_{ik}{\overline {\beta }}_{k}-\beta _{k}X_{ik}{\overline {X}}_{ij}{\Big )},\end{aligned}}

som, efter att ha lagt det samman och jämfört med noll (minimeringsvillkor för ${\displaystyle {\boldsymbol {\widehat {\beta }}}})$ ger

\sum _{i=1}^{m}X_{ij}{\overline {y}}_{i}=\sum _{i=1}^{m}\summa _{k=1 }^{n}X_{ij}{\overline {X}}_{ik}{\overline {\widehat {\beta }}}_{k}\qquad (j=1,2,3,\ldots , n).

I matrisform:

{\textbf {X}}^{\rm {T}}{\overline {\textbf {y}}}={\textbf {X}}^{\rm {T}}{\overline {{ \big (}{\textbf {X}}{\boldsymbol {\widehat {\beta }}}{\big )}}}\quad {\text{ eller }}\quad {\big (}{\textbf { X}}^{\dolk }{\textbf {X}}{\big )}{\boldsymbol {\widehat {\beta }}}={\textbf {X}}^{\dolk }{\textbf {y }}.

Minsta kvadraters estimator för β

Med hjälp av matrisnotation ges summan av kvadrerade residualer av

S(\beta )=(yX\beta )^{T}(yX\beta ).

Eftersom detta är ett kvadratiskt uttryck kan vektorn som ger det globala minimum hittas via matriskalkyl genom att differentiera med avseende på vektorn $\beta$ (med nämnarlayout) och sätta lika med noll:

0={\frac {dS}{d\beta }}({\widehat {\beta }})={\frac {d }{d\beta }}{\bigg (}y^{T}y-\beta ^{T}X^{T}yy^{T}X\beta +\beta ^{T}X^{T} X\beta {\bigg )}{\bigg |}_{\beta ={\widehat {\beta }}}=-2X^{T}y+2X^{T}X{\widehat {\beta }}

Enligt antagandet har matris X full kolumnrankning, och därför är X ^T X inverterbar och minsta kvadraters skattaren för β ges av

{\widehat {\beta }}=(X^{T}X)^{-1}X^{T}y

Opartiskhet och varians av ${\widehat {\beta }}$

Plugga in y = Xβ + ε i formeln för ${\widehat {\beta }}$ och använd sedan lagen om total förväntan :

{\begin{aligned }\operatörsnamn {E} [\,{\widehat {\beta }}]&=\operatörsnamn {E} {\Big [}(X^{T}X)^{-1}X^{T}(X \beta +\varepsilon ){\Big ]}\\&=\beta +\operatörsnamn {E} {\Big [}(X^{T}X)^{-1}X^{T}\varepsilon {\ Big ]}\\&=\beta +\operatörsnamn {E} {\Big [}\operatörsnamn {E} {\Big [}(X^{T}X)^{-1}X^{T}\varepsilon \mid X{\Big ]}{\Big ]}\\&=\beta +\operatörsnamn {E} {\Big [}(X^{T}X)^{-1}X^{T}\operatörsnamn {E} [\varepsilon \mid X]{\Big ]}&=\beta ,\end{aligned}}

där E[ ε | X ] = 0 genom antaganden av modellen. Eftersom det förväntade värdet på ${\widehat {\beta }}$ är lika med parametern den uppskattar, $\beta$ , är det en opartisk skattare av $\beta$ .

För variansen, låt kovariansmatrisen för $\varepsilon$ vara $\operatorname {E} [\,\varepsilon \varepsilon ^{T}\,] =\sigma ^{2}I$ (där $I$ är identiteten $m\,\times \,m$ matris), och låt X vara en känd konstant. Sedan,

{\ displaystyle {\begin{aligned}\operatörsnamn {E} [\,({\widehat {\beta }}-\beta )({\widehat {\beta }}-\beta )^{T}]&=\operatörsnamn {E} {\Big [}((X^{T}X)^{-1}X^{T}\varepsilon )((X^{T}X)^{-1}X^{T}\ varepsilon )^{T}{\Big ]}\\&=\operatörsnamn {E} {\Big [}(X^{T}X)^{-1}X^{T}\varepsilon \varepsilon ^{T }X(X^{T}X)^{-1}{\Big ]}\\&=(X^{T}X)^{-1}X^{T}\operatörsnamn {E} {\Big [}\varepsilon \varepsilon ^{T}{\Big ]}X(X^{T}X)^{-1}\\&=(X^{T}X)^{-1}X^{T }\sigma ^{2}X(X^{T}X)^{-1}\\&=\sigma ^{2}(X^{T}X)^{-1}X^{T}X (X^{T}X)^{-1}\\&=\sigma ^{2}(X^{T}X)^{-1},\end{aligned}}}

där vi använde det faktum att ${\widehat {\beta }}-\beta$ bara är en affin transformation av $\varepsilon$ av matrisen $(X^{T}X)^{-1}X^{T}$ .

För en enkel linjär regressionsmodell, där ${\displaystyle \beta =[\beta _{0},\beta _{1}]^{T}} ($ β $\displaystyle \beta _{0}}$ är y -skärningen och $\beta _{1}$ är lutningen), får man

{\begin{aligned}\sigma ^{2}(X^{T}X)^{-1}&=\sigma ^{2}\left({\begin{pmatrix}1&1&\cdots \\ x_{1}&x_{2}&\cdots \end{pmatrix}}{\begin{pmatrix}1&x_{1}\\1&x_{2}\\\vdots &\vdots \,\,\,\end{pmatrix }}\right)^{-1}\\[6pt]&=\sigma ^{2}\left(\summa _{i=1}^{m}{\begin{pmatrix}1&x_{i}\\ x_{i}&x_{i}^{2}\end{pmatrix}}\right)^{-1}\\[6pt]&=\sigma ^{2}{\begin{pmatrix}m&\sum x_{ i}\\\summa x_{i}&\summa x_{i}^{2}\end{pmatrix}}^{-1}\\[6pt]&=\sigma ^{2}\cdot {\frac {1}{m\summa x_{i}^{2}-(\summa x_{i})^{2}}}{\begin{pmatrix}\summa x_{i}^{2}&-\summa x_{i}\\-\sum x_{i}&m\end{pmatrix}}\\[6pt]&=\sigma ^{2}\cdot {\frac {1}{m\sum {(x_{i }-{\bar {x}})^{2}}}}{\begin{pmatrix}\summa x_{i}^{2}&-\summa x_{i}\\-\summa x_{i} &m\end{pmatrix}}\\[8pt]\operatörsnamn {Var} ({\widehat {\beta }}_{1})&={\frac {\sigma ^{2}}{\sum _{i =1}^{m}(x_{i}-{\bar {x}})^{2}}}.\end{aligned}}

Förväntat värde och partiskhet för ${\widehat {\sigma }}^{\,2}$

Först kopplar vi in uttrycket för y i estimatorn och använder det faktum att X'M = MX = 0 (matris M projicerar på rymden vinkelrät mot X ):

{\widehat {\sigma }}^{\,2 }={\tfrac {1}{n}}y'My={\tfrac {1}{n}}(X\beta +\varepsilon )'M(X\beta +\varepsilon )={\tfrac {1 }{n}}\varepsilon 'M\varepsilon

Nu kan vi känna igen ε ′ Mε som en 1×1 matris, en sådan matris är lika med sitt eget spår . Detta är användbart eftersom tr ( AB ) = tr ( BA ) , med egenskaperna hos spåroperatorn, och vi kan använda detta för att separera störningen ε från matrisen M som är en funktion av regressorerna X :

\operatörsnamn {E} \,{\widehat {\sigma }}^{\,2}={\tfrac {1}{n}}\operatörsnamn {E} {\big [}\operatörsnamn {tr} (\varepsilon 'M\varepsilon ){\big ]}={\ tfrac {1}{n}}\operatörsnamn {tr} {\big (}\operatörsnamn {E} [M\varepsilon \varepsilon ']{\big )}

Med hjälp av lagen om itererad förväntan kan detta skrivas som

\operatörsnamn {E} \,{\widehat {\sigma }}^{\,2}={\tfrac {1}{n}}\operatörsnamn {tr} {\Big (}\operatörsnamn {E } {\big [}M\,\operatörsnamn {E} [\varepsilon \varepsilon '|X]{\big ]}{\Big )}={\tfrac {1}{n}}\operatörsnamn {tr} { \big (}\operatörsnamn {E} [\sigma ^{2}MI]{\big )}={\tfrac {1}{n}}\sigma ^{2}\operatörsnamn {E} {\big [} \operatörsnamn {tr} \,M{\big ]}

Kom ihåg att M = I − P där P är projektionen på linjärt utrymme som spänns av kolumner i matrisen X . Genom egenskaperna hos en projektionsmatris har den p = rank( X ) egenvärden lika med 1, och alla andra egenvärden är lika med 0. Spår av en matris är lika med summan av dess karakteristiska värden, alltså tr( P ) = p , och tr( M ) = n − p . Därför,

\operatorname {E} \,{\widehat {\sigma }}^{\,2}={\frac {np}{n}}\sigma ^{ 2}

Eftersom det förväntade värdet på $displaystyle {\widehat {\sigma }}^{\,2}}$ \ inte är lika med parametern den uppskattar, $\sigma ^{\,2}$ är en partisk estimator av $\sigma ^{\,2}$ . Notera att i det senare avsnittet "Maximal sannolikhet" visar vi att under det ytterligare antagandet att felen är normalfördelade, är estimatorn ${\widehat {\sigma }}^{\,2}$ proportionell mot en chi -kvadratfördelning med n – p frihetsgrader, varifrån formeln för förväntat värde omedelbart skulle följa. Men det resultat vi har visat i detta avsnitt är giltigt oavsett fördelningen av felen, och har därför betydelse i sig.

Konsistens och asymptotisk normalitet för ${\widehat {\beta }}$

Estimator ${\widehat {\beta }}$ kan skrivas som

{\widehat {\beta }}={\big (}{\tfrac {1}{n}}X'X{\big ) }^{-1}{\tfrac {1}{n}}X'y=\beta +{\big (}{\tfrac {1}{n}}X'X{\big )}^{-1 }{\tfrac {1}{n}}X'\varepsilon =\beta \;+\;{\bigg (}{\frac {1}{n}}\sum _{i=1}^{n} x_{i}x'_{i}{\bigg )}^{\!\!-1}{\bigg (}{\frac {1}{n}}\summa _{i=1}^{n }x_{i}\varepsilon _{i}{\bigg )}

Vi kan använda lagen om stora tal för att fastställa det

{\frac {1}{n}}\sum _{i=1}^{n}x_{i}x'_{i}\ {\xrightarrow {p}}\ \operatörsnamn {E} [x_{i}x_{i}']={\frac {Q_{xx}}{n}},\qquad {\frac {1}{n}}\summa _{i=1}^{n} x_{i}\varepsilon _{i}\ {\xrightarrow {p}}\ \operatörsnamn {E} [x_{i}\varepsilon _{i}]=0

Genom Slutskys teorem och kontinuerliga kartläggningssats kan dessa resultat kombineras för att fastställa konsistensen av estimatorn ${\widehat {\beta }}$ :

{\widehat {\beta }}\ {\xrightarrow {p}}\ \beta +nQ_{xx}^{-1}\cdot 0 =\beta

Den centrala gränssatsen säger oss det

{\frac {1}{\sqrt {n}}}\summa _{i=1}^{n}x_{ i}\varepsilon _{i}\ {\xrightarrow {d}}\ {\mathcal {N}}{\big (}0,\,V{\big )},

där

V=\operatörsnamn { Var} [x_{i}\varepsilon _{i}]=\operatörsnamn {E} [\,\varepsilon _{i}^{2}x_{i}x'_{i}\,]=\operatörsnamn { E} {\big [}\,\operatörsnamn {E} [\varepsilon _{i}^{2}\mid x_{i}]\;x_{i}x'_{i}\,{\big ] }=\sigma ^{2}{\frac {Q_{xx}}{n}}

Att tillämpa Slutskys teorem igen kommer vi att ha

{\sqrt {n}}({\widehat {\beta }}-\beta )={\bigg (}{\ frac {1}{n}}\sum _{i=1}^{n}x_{i}x'_{i}{\bigg )}^{\!\!-1}{\bigg (}{ \frac {1}{\sqrt {n}}}\sum _{i=1}^{n}x_{i}\varepsilon _{i}{\bigg )}\ {\xrightarrow {d}}\ Q_ {xx}^{-1}n\cdot {\mathcal {N}}{\big (}0,\sigma ^{2}{\frac {Q_{xx}}{n}}{\big )}= {\mathcal {N}}{\big (}0,\sigma ^{2}Q_{xx}^{-1}n{\big )}

Maximal sannolikhet tillvägagångssätt

Maximal likelihood-estimering är en generisk teknik för att uppskatta de okända parametrarna i en statistisk modell genom att konstruera en log-likelihood-funktion som motsvarar den gemensamma fördelningen av data, och sedan maximera denna funktion över alla möjliga parametervärden. För att tillämpa denna metod måste vi göra ett antagande om fördelningen av y givet X så att log-likelihood-funktionen kan konstrueras. Kopplingen av maximal sannolikhetsuppskattning till OLS uppstår när denna fördelning modelleras som en multivariat normal .

Antag specifikt att felen ε har multivariat normalfördelning med medelvärde 0 och variansmatris σ ² I . Då är fördelningen av y villkorligt på X

y\mid X\ \sim \ {\mathcal {N}}(X\beta ,\,\sigma ^{2}I)

och logg-sannolikhetsfunktionen för datan kommer att vara

{\begin{aligned}{\mathcal {L }}(\beta ,\sigma ^{2}\mid X)&=\ln {\bigg (}{\frac {1}{(2\pi )^{n/2}(\sigma ^{2} )^{n/2}}}e^{-{\frac {1}{2}}(yX\beta )'(\sigma ^{2}I)^{-1}(yX\beta )}{ \bigg )}\\[6pt]&=-{\frac {n}{2}}\ln 2\pi -{\frac {n}{2}}\ln \sigma ^{2}-{\frac {1}{2\sigma ^{2}}}(yX\beta )'(yX\beta )\end{aligned}}

Genom att differentiera detta uttryck med avseende på β och σ ² hittar vi ML-uppskattningarna av dessa parametrar:

{\begin{aligned}{\frac {\partial {\mathcal {L}}}{\partial \beta '}}&=-{\frac {1}{2\sigma ^{2}}} {\Big (}-2X'y+2X'X\beta {\Big )}=0\quad \Rightarrow \quad {\widehat {\beta }}=(X'X)^{-1}X'y \\[6pt]{\frac {\partial {\mathcal {L}}}{\partial \sigma ^{2}}}&=-{\frac {n}{2}}{\frac {1}{ \sigma ^{2}}}+{\frac {1}{2\sigma ^{4}}}(yX\beta )'(yX\beta )=0\quad \Rightarrow \quad {\widehat {\sigma }}^{\,2}={\frac {1}{n}}(yX{\widehat {\beta }})'(yX{\widehat {\beta }})={\frac {1}{ n}}S({\widehat {\beta }})\end{aligned}}

Vi kan kontrollera att detta verkligen är ett maximum genom att titta på den hessiska matrisen för log-likelihood-funktionen.

Fördelning med ändligt urval

Eftersom vi i detta avsnitt har antagit att fördelningen av feltermer är känd för att vara normal, blir det möjligt att härleda de explicita uttrycken för fördelningarna av estimatorerna ${\widehat {\beta }}$ och ${\widehat {\sigma }}^{\,2}$ :

{\ displaystyle {\widehat {\beta }}=(X'X)^{-1}X'y=(X'X)^{-1}X'(X\beta +\varepsilon )=\beta +(X 'X)^{-1}X'{\mathcal {N}}(0,\sigma ^{2}I)}

så att av den affina transformationsegenskaperna hos multivariat normalfördelning

{\widehat {\beta }}\mid X\ \sim \ {\mathcal {N}}(\beta ,\,\sigma ^{2}(X'X)^{-1}).

följer fördelningen av ${\displaystyle {\widehat {\sigma }}^{\,2}} från$

{\begin{aligned}{\widehat {\sigma }}^{\,2}&={\tfrac {1}{n}}(yX(X'X)^{-1}X'y)'(yX(X'X)^{-1}X'y)\\[5pt]&={\tfrac {1}{n}}(My)'My\\[5pt]&={\tfrac {1}{n}}(X\beta +\varepsilon )'M(X\beta +\varepsilon )\\[ 5pt]&={\tfrac {1}{n}}\varepsilon 'M\varepsilon ,\end{aligned}}

där $M=IX(X'X)^{-1}X'$ är den symmetriska projektionsmatrisen på delrymden vinkelrät mot X , och därför är MX = X ′ M = 0. Vi har tidigare hävdat att denna matris rangordnas n – p , och därmed efter egenskaperna hos chi-kvadratfördelningen ,

{\tfrac {n}{\sigma ^{2}}}{\widehat {\ sigma }}^{\,2}\mid X=(\varepsilon /\sigma )'M(\varepsilon /\sigma )\ \sim \ \chi _{np}^{2}

Dessutom visar sig estimatorerna ${\widehat {\beta }}$ och ${\widehat {\sigma }}^{\,2}$ vara oberoende (villkorat av X ) , ett faktum som är grundläggande för konstruktionen av de klassiska t- och F-testerna. Oberoendet kan enkelt ses från följande: estimatorn ${\widehat {\beta }}$ representerar koefficienter för vektornedbrytning av ${ \widehat {y}}=X{\widehat {\beta }}=Py=X\beta +P\varepsilon$ baserat på kolumner i X , som sådan ${\widehat {\beta }}$ är en funktion av Pε . Samtidigt är estimatorn ${\widehat {\sigma }}^{\,2}$ en norm för vektorn Mε dividerat med n , och därför är denna estimator en funktion av Mε . Nu är slumpvariabler ( Pε , Mε ) gemensamt normala som en linjär transformation av ε , och de är också okorrelerade eftersom PM = 0. Med egenskaper hos multivariat normalfördelning betyder detta att Pε och Mε är oberoende, och därför estimatorerna ${\widehat {\beta }}$ och ${\widehat {\sigma }}^{\,2}$ kommer också att vara oberoende.

Härledning av enkla linjär regressionsuppskattare

Vi letar efter ${\widehat {\alpha }}$ och ${\widehat {\beta }}$ som minimerar summan av kvadratiska fel (SSE):

\min _{{\widehat {\alpha }},{\widehat {\beta }}}\,\operatörsnamn {SSE} \left({\widehat {\alpha }},{\widehat {\beta }}\right)\equiv \min _ {{\widehat {\alpha }},{\widehat {\beta }}}\sum _{i=1}^{n}\left(y_{i}-{\widehat {\alpha }}-{\ bredhatt {\beta }}x_{i}\right)^{2}

För att hitta ett minimum, ta partiella derivator med avseende på ${\widehat {\alpha }}$ och ${\widehat {\beta }}$

{\begin{aligned}&{ \frac {\partial }{\partial {\widehat {\alpha }}}}\left(\operatörsnamn {SSE} \left({\widehat {\alpha }},{\widehat {\beta }}\right) \right)=-2\summa _{i=1}^{n}\left(y_{i}-{\widehat {\alpha }}-{\widehat {\beta }}x_{i}\right) =0\\[4pt]\Rightarrow {}&\sum _{i=1}^{n}\left(y_{i}-{\widehat {\alpha }}-{\widehat {\beta }}x_ {i}\right)=0\\[4pt]\Rightarrow {}&\sum _{i=1}^{n}y_{i}=\summa _{i=1}^{n}{\widehat {\alpha }}+{\widehat {\beta }}\sum _{i=1}^{n}x_{i}\\[4pt]\Rightarrow {}&\sum _{i=1}^{ n}y_{i}=n{\widehat {\alpha }}+{\widehat {\beta }}\sum _{i=1}^{n}x_{i}\\[4pt]\Rightarrow {} &{\frac {1}{n}}\sum _{i=1}^{n}y_{i}={\widehat {\alpha }}+{\frac {1}{n}}{\widehat {\beta }}\sum _{i=1}^{n}x_{i}\\[4pt]\Högerpil {}&{\bar {y}}={\widehat {\alpha }}+{\ widehat {\beta }}{\bar {x}}\end{aligned}}

Innan du tar partiell derivata med avseende på ${\displaystyle {\widehat {\beta }}}, ersätt$ ${\widehat {\alpha }}.$ med det föregående resultatet

\min _{{\widehat {\alpha }},{\widehat {\beta }}}\summa _{i=1}^{n} \left[y_{i}-\left({\bar {y}}-{\widehat {\beta}}{\bar {x}}\right)-{\widehat {\beta }}x_{i} \right]^{2}=\min _{{\widehat {\alpha }},{\widehat {\beta }}}\sum _{i=1}^{n}\left[\left(y_{ i}-{\bar {y}}\right)-{\widehat {\beta }}\left(x_{i}-{\bar {x}}\right)\right]^{2}

Ta nu derivatan med avseende på ${\widehat {\beta }}$ :

{\begin{aligned}&{\frac { \partial }{\partial {\widehat {\beta }}}}\left(\operatörsnamn {SSE} \left({\widehat {\alpha }},{\widehat {\beta }}\right)\right) =-2\summa _{i=1}^{n}\left[\left(y_{i}-{\bar {y}}\right)-{\widehat {\beta }}\left(x_{ i}-{\bar {x}}\höger)\höger]\left(x_{i}-{\bar {x}}\right)=0\\\högerpil {}&\summa _{i=1 }^{n}\left(y_{i}-{\bar {y}}\right)\left(x_{i}-{\bar {x}}\right)-{\widehat {\beta }} \sum _{i=1}^{n}\left(x_{i}-{\bar {x}}\right)^{2}=0\\\Högerpil {}&{\widehat {\beta } }={\frac {\sum _{i=1}^{n}\left(y_{i}-{\bar {y}}\right)\left(x_{i}-{\bar {x} }\right)}{\sum _{i=1}^{n}\left(x_{i}-{\bar {x}}\right)^{2}}}={\frac {\operatörsnamn { Cov} (x,y)}{\operatörsnamn {Var} (x)}}\end{aligned}}

Och ersätt slutligen ${\widehat {\beta }}$ för att bestämma ${\widehat {\alpha }}$

{\widehat {\alpha }}={\bar {y}}-{\widehat {\beta }}{\bar {x}}