Syftet med den här sidan är att tillhandahålla kompletterande material för den vanliga artikeln med minsta kvadrater , minska belastningen på huvudartikeln med matematik och förbättra dess tillgänglighet, samtidigt som expositionen behålls fullständigt.
Härledning av normalekvationerna
Definiera e residual som ska vara
Sedan kan målet skrivas om
Med tanke på att S är konvex, minimeras den när dess gradientvektor är noll (Detta följer per definition: om gradientvektorn inte är noll finns det en riktning i vilken vi kan röra oss för att minimera den ytterligare – se maxima och minima .) element i gradientvektorn är partiella derivator av S med avseende på parametrarna:
Derivaten är
Substitution av uttrycken för residualerna och derivatorna i gradientekvationerna ger
Så om minimerar S , har vi
Vid omarrangemang får vi de normala ekvationerna :
Normalekvationerna skrivs i matrisnotation som
-
(där X T är matristransponeringen av X ).
Lösningen av normalekvationerna ger vektorn för de optimala parametervärdena.
Härledning direkt i termer av matriser
Normalekvationerna kan härledas direkt från en matrisrepresentation av problemet enligt följande. Målet är att minimera
Här i ), så det är en skalär och lika med sin egen transponering, därav och mängden att minimera blir
Att differentiera detta med avseende på och likställa med noll för att uppfylla första ordningens villkor ger
vilket är ekvivalent med de ovan givna normalekvationerna. Ett tillräckligt villkor för tillfredsställelse av andra ordningens villkor för ett minimum är att har full kolumnrankning, i vilket fall är positivt definitivt .
Härledning utan kalkyl
När är positiv definitiv, formeln för minimeringsvärdet för kan härledas utan användning av derivat. Kvantiteten
kan skrivas som
där endast beror på och , och är den inre produkten som definieras av
Det följer att är lika med
och därför minimeras exakt när
Generalisering för komplexa ekvationer
I allmänhet kan koefficienterna för matriserna och vara komplexa. Genom att använda en hermitisk transponering istället för en enkel transponering är det möjligt att hitta en vektor som minimerar , precis som för det verkliga matrisfallet. För att få normalekvationerna följer vi en liknande väg som i tidigare härledningar:
där står för Hermitian transpose.
Vi bör nu ta derivator av med avseende på var och en av koefficienterna , men först separerar vi reella och imaginära delar för att hantera de konjugerade faktorerna i ovanstående uttryck. För har vi
och derivaten ändras till
Efter att ha skrivit om i summeringsformen och skrivit explicit, kan vi beräkna båda partiella derivator med resultatet:
som, efter att ha lagt det samman och jämfört med noll (minimeringsvillkor för ger
I matrisform:
Minsta kvadraters estimator för β
Med hjälp av matrisnotation ges summan av kvadrerade residualer av
Eftersom detta är ett kvadratiskt uttryck kan vektorn som ger det globala minimum hittas via matriskalkyl genom att differentiera med avseende på vektorn (med nämnarlayout) och sätta lika med noll:
Enligt antagandet har matris X full kolumnrankning, och därför är X T X inverterbar och minsta kvadraters skattaren för β ges av
Opartiskhet och varians av
Plugga in y = Xβ + ε i formeln för och använd sedan lagen om total förväntan :
där E[ ε | X ] = 0 genom antaganden av modellen. Eftersom det förväntade värdet på är lika med parametern den uppskattar, , är det en opartisk skattare av .
För variansen, låt kovariansmatrisen för vara (där är identiteten matris), och låt X vara en känd konstant. Sedan,
där vi använde det faktum att bara är en affin transformation av av matrisen .
För en enkel linjär regressionsmodell, där β är y -skärningen och är lutningen), får man
Förväntat värde och partiskhet för
Först kopplar vi in uttrycket för y i estimatorn och använder det faktum att X'M = MX = 0 (matris M projicerar på rymden vinkelrät mot X ):
Nu kan vi känna igen ε ′ Mε som en 1×1 matris, en sådan matris är lika med sitt eget spår . Detta är användbart eftersom tr ( AB ) = tr ( BA ) , med egenskaperna hos spåroperatorn, och vi kan använda detta för att separera störningen ε från matrisen M som är en funktion av regressorerna X :
Med hjälp av lagen om itererad förväntan kan detta skrivas som
Kom ihåg att M = I − P där P är projektionen på linjärt utrymme som spänns av kolumner i matrisen X . Genom egenskaperna hos en projektionsmatris har den p = rank( X ) egenvärden lika med 1, och alla andra egenvärden är lika med 0. Spår av en matris är lika med summan av dess karakteristiska värden, alltså tr( P ) = p , och tr( M ) = n − p . Därför,
Eftersom det förväntade värdet på \ inte är lika med parametern den uppskattar, är en partisk estimator av . Notera att i det senare avsnittet "Maximal sannolikhet" visar vi att under det ytterligare antagandet att felen är normalfördelade, är estimatorn proportionell mot en chi -kvadratfördelning med n – p frihetsgrader, varifrån formeln för förväntat värde omedelbart skulle följa. Men det resultat vi har visat i detta avsnitt är giltigt oavsett fördelningen av felen, och har därför betydelse i sig.
Konsistens och asymptotisk normalitet för
Estimator kan skrivas som
Vi kan använda lagen om stora tal för att fastställa det
Genom Slutskys teorem och kontinuerliga kartläggningssats kan dessa resultat kombineras för att fastställa konsistensen av estimatorn :
Den centrala gränssatsen säger oss det
-
där
Att tillämpa Slutskys teorem igen kommer vi att ha
Maximal sannolikhet tillvägagångssätt
Maximal likelihood-estimering är en generisk teknik för att uppskatta de okända parametrarna i en statistisk modell genom att konstruera en log-likelihood-funktion som motsvarar den gemensamma fördelningen av data, och sedan maximera denna funktion över alla möjliga parametervärden. För att tillämpa denna metod måste vi göra ett antagande om fördelningen av y givet X så att log-likelihood-funktionen kan konstrueras. Kopplingen av maximal sannolikhetsuppskattning till OLS uppstår när denna fördelning modelleras som en multivariat normal .
Antag specifikt att felen ε har multivariat normalfördelning med medelvärde 0 och variansmatris σ 2 I . Då är fördelningen av y villkorligt på X
och logg-sannolikhetsfunktionen för datan kommer att vara
Genom att differentiera detta uttryck med avseende på β och σ 2 hittar vi ML-uppskattningarna av dessa parametrar:
Vi kan kontrollera att detta verkligen är ett maximum genom att titta på den hessiska matrisen för log-likelihood-funktionen.
Fördelning med ändligt urval
Eftersom vi i detta avsnitt har antagit att fördelningen av feltermer är känd för att vara normal, blir det möjligt att härleda de explicita uttrycken för fördelningarna av estimatorerna och :
så att av den affina transformationsegenskaperna hos multivariat normalfördelning
följer fördelningen av
där är den symmetriska projektionsmatrisen på delrymden vinkelrät mot X , och därför är MX = X ′ M = 0. Vi har tidigare hävdat att denna matris rangordnas n – p , och därmed efter egenskaperna hos chi-kvadratfördelningen ,
Dessutom visar sig estimatorerna och vara oberoende (villkorat av X ) , ett faktum som är grundläggande för konstruktionen av de klassiska t- och F-testerna. Oberoendet kan enkelt ses från följande: estimatorn representerar koefficienter för vektornedbrytning av baserat på kolumner i X , som sådan är en funktion av Pε . Samtidigt är estimatorn en norm för vektorn Mε dividerat med n , och därför är denna estimator en funktion av Mε . Nu är slumpvariabler ( Pε , Mε ) gemensamt normala som en linjär transformation av ε , och de är också okorrelerade eftersom PM = 0. Med egenskaper hos multivariat normalfördelning betyder detta att Pε och Mε är oberoende, och därför estimatorerna och kommer också att vara oberoende.
Härledning av enkla linjär regressionsuppskattare
Vi letar efter och som minimerar summan av kvadratiska fel (SSE):
För att hitta ett minimum, ta partiella derivator med avseende på och
Innan du tar partiell derivata med avseende på med det föregående resultatet
Ta nu derivatan med avseende på :
Och ersätt slutligen för att bestämma