Bevis som involverar vanliga minsta kvadrater

Syftet med den här sidan är att tillhandahålla kompletterande material för den vanliga artikeln med minsta kvadrater , minska belastningen på huvudartikeln med matematik och förbättra dess tillgänglighet, samtidigt som expositionen behålls fullständigt.

Härledning av normalekvationerna

Definiera e residual som ska vara

Sedan kan målet skrivas om

Med tanke på att S är konvex, minimeras den när dess gradientvektor är noll (Detta följer per definition: om gradientvektorn inte är noll finns det en riktning i vilken vi kan röra oss för att minimera den ytterligare – se maxima och minima .) element i gradientvektorn är partiella derivator av S med avseende på parametrarna:

Derivaten är

Substitution av uttrycken för residualerna och derivatorna i gradientekvationerna ger

Så om minimerar S , har vi

Vid omarrangemang får vi de normala ekvationerna :

Normalekvationerna skrivs i matrisnotation som

(där X T är matristransponeringen av X ).

Lösningen av normalekvationerna ger vektorn för de optimala parametervärdena.

Härledning direkt i termer av matriser

Normalekvationerna kan härledas direkt från en matrisrepresentation av problemet enligt följande. Målet är att minimera

Här i ), så det är en skalär och lika med sin egen transponering, därav och mängden att minimera blir

Att differentiera detta med avseende på och likställa med noll för att uppfylla första ordningens villkor ger

vilket är ekvivalent med de ovan givna normalekvationerna. Ett tillräckligt villkor för tillfredsställelse av andra ordningens villkor för ett minimum är att har full kolumnrankning, i vilket fall är positivt definitivt .

Härledning utan kalkyl

När är positiv definitiv, formeln för minimeringsvärdet för kan härledas utan användning av derivat. Kvantiteten

kan skrivas som

där endast beror på och , och är den inre produkten som definieras av

Det följer att är lika med

och därför minimeras exakt när

Generalisering för komplexa ekvationer

I allmänhet kan koefficienterna för matriserna och vara komplexa. Genom att använda en hermitisk transponering istället för en enkel transponering är det möjligt att hitta en vektor som minimerar , precis som för det verkliga matrisfallet. För att få normalekvationerna följer vi en liknande väg som i tidigare härledningar:

där står för Hermitian transpose.

Vi bör nu ta derivator av med avseende på var och en av koefficienterna , men först separerar vi reella och imaginära delar för att hantera de konjugerade faktorerna i ovanstående uttryck. För har vi

och derivaten ändras till

Efter att ha skrivit om i summeringsformen och skrivit explicit, kan vi beräkna båda partiella derivator med resultatet:

som, efter att ha lagt det samman och jämfört med noll (minimeringsvillkor för ger

I matrisform:

Minsta kvadraters estimator för β

Med hjälp av matrisnotation ges summan av kvadrerade residualer av

Eftersom detta är ett kvadratiskt uttryck kan vektorn som ger det globala minimum hittas via matriskalkyl genom att differentiera med avseende på vektorn (med nämnarlayout) och sätta lika med noll:

Enligt antagandet har matris X full kolumnrankning, och därför är X T X inverterbar och minsta kvadraters skattaren för β ges av

Opartiskhet och varians av

Plugga in y = + ε i formeln för och använd sedan lagen om total förväntan :

där E[ ε | X ] = 0 genom antaganden av modellen. Eftersom det förväntade värdet på är lika med parametern den uppskattar, , är det en opartisk skattare av .

För variansen, låt kovariansmatrisen för vara (där är identiteten matris), och låt X vara en känd konstant. Sedan,

där vi använde det faktum att bara är en affin transformation av av matrisen .

För en enkel linjär regressionsmodell, där β är y -skärningen och är lutningen), får man

Förväntat värde och partiskhet för

Först kopplar vi in ​​uttrycket för y i estimatorn och använder det faktum att X'M = MX = 0 (matris M projicerar på rymden vinkelrät mot X ):

Nu kan vi känna igen ε som en 1×1 matris, en sådan matris är lika med sitt eget spår . Detta är användbart eftersom tr ( AB ) = tr ( BA ) , med egenskaperna hos spåroperatorn, och vi kan använda detta för att separera störningen ε från matrisen M som är en funktion av regressorerna X :

Med hjälp av lagen om itererad förväntan kan detta skrivas som

Kom ihåg att M = I P där P är projektionen på linjärt utrymme som spänns av kolumner i matrisen X . Genom egenskaperna hos en projektionsmatris har den p = rank( X ) egenvärden lika med 1, och alla andra egenvärden är lika med 0. Spår av en matris är lika med summan av dess karakteristiska värden, alltså tr( P ) = p , och tr( M ) = n p . Därför,

Eftersom det förväntade värdet på \ inte är lika med parametern den uppskattar, är en partisk estimator av . Notera att i det senare avsnittet "Maximal sannolikhet" visar vi att under det ytterligare antagandet att felen är normalfördelade, är estimatorn proportionell mot en chi -kvadratfördelning med n p frihetsgrader, varifrån formeln för förväntat värde omedelbart skulle följa. Men det resultat vi har visat i detta avsnitt är giltigt oavsett fördelningen av felen, och har därför betydelse i sig.

Konsistens och asymptotisk normalitet för

Estimator kan skrivas som

Vi kan använda lagen om stora tal för att fastställa det

Genom Slutskys teorem och kontinuerliga kartläggningssats kan dessa resultat kombineras för att fastställa konsistensen av estimatorn :

Den centrala gränssatsen säger oss det

där

Att tillämpa Slutskys teorem igen kommer vi att ha

Maximal sannolikhet tillvägagångssätt

Maximal likelihood-estimering är en generisk teknik för att uppskatta de okända parametrarna i en statistisk modell genom att konstruera en log-likelihood-funktion som motsvarar den gemensamma fördelningen av data, och sedan maximera denna funktion över alla möjliga parametervärden. För att tillämpa denna metod måste vi göra ett antagande om fördelningen av y givet X så att log-likelihood-funktionen kan konstrueras. Kopplingen av maximal sannolikhetsuppskattning till OLS uppstår när denna fördelning modelleras som en multivariat normal .

Antag specifikt att felen ε har multivariat normalfördelning med medelvärde 0 och variansmatris σ 2 I . Då är fördelningen av y villkorligt på X

och logg-sannolikhetsfunktionen för datan kommer att vara

Genom att differentiera detta uttryck med avseende på β och σ 2 hittar vi ML-uppskattningarna av dessa parametrar:

Vi kan kontrollera att detta verkligen är ett maximum genom att titta på den hessiska matrisen för log-likelihood-funktionen.

Fördelning med ändligt urval

Eftersom vi i detta avsnitt har antagit att fördelningen av feltermer är känd för att vara normal, blir det möjligt att härleda de explicita uttrycken för fördelningarna av estimatorerna och :

så att av den affina transformationsegenskaperna hos multivariat normalfördelning

följer fördelningen av

där är den symmetriska projektionsmatrisen på delrymden vinkelrät mot X , och därför är MX = X M = 0. Vi har tidigare hävdat att denna matris rangordnas n p , och därmed efter egenskaperna hos chi-kvadratfördelningen ,

Dessutom visar sig estimatorerna och vara oberoende (villkorat av X ) , ett faktum som är grundläggande för konstruktionen av de klassiska t- och F-testerna. Oberoendet kan enkelt ses från följande: estimatorn representerar koefficienter för vektornedbrytning av baserat på kolumner i X , som sådan är en funktion av . Samtidigt är estimatorn en norm för vektorn dividerat med n , och därför är denna estimator en funktion av . Nu är slumpvariabler ( , ) gemensamt normala som en linjär transformation av ε , och de är också okorrelerade eftersom PM = 0. Med egenskaper hos multivariat normalfördelning betyder detta att och är oberoende, och därför estimatorerna och kommer också att vara oberoende.

Härledning av enkla linjär regressionsuppskattare

Vi letar efter och som minimerar summan av kvadratiska fel (SSE):

För att hitta ett minimum, ta partiella derivator med avseende på och

Innan du tar partiell derivata med avseende på med det föregående resultatet

Ta nu derivatan med avseende på :

Och ersätt slutligen för att bestämma