Regression med minsta vinkel

Standardiserade koefficienter visas som en funktion av andel av krympning.

Inom statistik är minsta vinkelregression (LARS) en algoritm för att anpassa linjära regressionsmodeller till högdimensionella data, utvecklad av Bradley Efron , Trevor Hastie , Iain Johnstone och Robert Tibshirani .

Antag att vi förväntar oss att en svarsvariabel bestäms av en linjär kombination av en delmängd av potentiella kovariater. Sedan tillhandahåller LARS-algoritmen ett sätt att producera en uppskattning av vilka variabler som ska inkluderas, såväl som deras koefficienter.

Istället för att ge ett vektorresultat, består LARS-lösningen av en kurva som anger lösningen för varje värde på L1-normen för parametervektorn. Algoritmen liknar framåt stegvis regression , men istället för att inkludera variabler vid varje steg, ökas de uppskattade parametrarna i en riktning som är likvinklig med var och ens korrelationer med residualen.

För-och nackdelar

Fördelarna med LARS-metoden är:

Det är beräkningsmässigt lika snabbt som framåtval.
Den producerar en fullständig, bitvis linjär lösningsväg, vilket är användbart vid korsvalidering eller liknande försök att ställa in modellen.
Om två variabler är nästan lika korrelerade med svaret, bör deras koefficienter öka med ungefär samma hastighet. Algoritmen beter sig alltså som intuitionen förväntar sig, och är dessutom mer stabil.
Det är lätt att modifiera för att producera effektiva algoritmer för andra metoder som ger liknande resultat, som lasso och stegvis regression framåt.
Det är effektivt i sammanhang där p ≫ n (dvs när antalet prediktorer p är betydligt större än antalet punkter n )

Nackdelarna med LARS-metoden inkluderar:

Med vilken mängd som helst brus i den beroende variabeln och med högdimensionella multikollinjära oberoende variabler, finns det ingen anledning att tro att de valda variablerna kommer att ha en hög sannolikhet att vara de faktiska bakomliggande orsaksvariablerna. Detta problem är inte unikt för LARS, eftersom det är ett generellt problem med tillvägagångssätt för variabelt urval som försöker hitta underliggande deterministiska komponenter. Ändå, eftersom LARS är baserat på en iterativ omanpassning av resterna, verkar den vara särskilt känslig för effekterna av buller. Detta problem diskuteras i detalj av Weisberg i diskussionsdelen av Efron et al. (2004) Annals of Statistics artikel. Weisberg ger ett empiriskt exempel baserat på omanalys av data som ursprungligen användes för att validera LARS att variabelurvalet verkar ha problem med högkorrelerade variabler.
Eftersom nästan all högdimensionell data i den verkliga världen helt enkelt av en slump kommer att uppvisa en rimlig grad av kollinaritet över åtminstone några variabler, kan problemet som LARS har med korrelerade variabler begränsa dess tillämpning till högdimensionella data.

Algoritm

De grundläggande stegen i minsta vinkel-regressionsalgoritmen är:

Börja med alla koefficienter $\beta$ lika med noll.
Hitta prediktorn $x_{j}$ som är mest korrelerad med $y$ .
Öka koefficienten $\beta _{j}$ i riktning mot tecknet för dess korrelation med $y$ . Ta rester $r=y-{\hat {y}}$ längs vägen. Sluta när någon annan prediktor $x_{k}$ har lika mycket korrelation med $r$ som $x_{j}$ har.
Öka ( $\beta _{j}$ , $\beta _{k}$ ) i deras gemensamma minsta kvadraters riktning, tills någon annan prediktor $x_{m}$ har lika mycket korrelation med resterande $r$ .
Öka ( $\beta _{j}$ , $\beta _{k}$ , $\beta _{m}$ ) i deras gemensamma minsta kvadraters riktning, tills någon annan prediktor $x_{n}$ har lika mycket korrelation med den resterande $r$ .
Fortsätt tills: alla prediktorer finns i modellen.

Mjukvaruimplementering

Minstvinkelregression implementeras i R via lars - paketet, i Python med scikit-learn -paketet och i SAS via GLMSELECT -proceduren.

Se även