Varians inflationsfaktor
I statistiken är variansinflationsfaktorn ( VIF ) förhållandet ( kvoten ) av variansen för att uppskatta en parameter i en modell som inkluderar flera andra termer (parametrar) med variansen av en modell konstruerad med bara en term . Den kvantifierar allvaret av multikollinearitet i en vanlig minsta kvadraters regressionsanalys . Det tillhandahåller ett index som mäter hur mycket variansen (kvadraten på uppskattningens standardavvikelse ) för en uppskattad regressionskoefficient ökas på grund av kollinearitet. Cuthbert Daniel säger sig ha uppfunnit konceptet bakom variansinflationsfaktorn, men kom inte på namnet.
Definition
Betrakta följande linjära modell med k oberoende variabler:
- 0 Y = β + β 1 X 1 + β 2 X 2 + ... + β k X k + ε .
Standardfelet för skattningen av β j är kvadratroten av j + 1 diagonalelementet av s 2 ( X ′ X ) −1 , där s är rotmedelkvadratfelet (RMSE) ( observera att RMSE 2 är en konsekvent estimator av den sanna variansen för feltermen, ; X är regressionsdesignmatrisen — en matris så att Xi fallet , j +1 är värdet på den j: te oberoende variabeln för det i: te eller observationen, och sådan att Xi ,1 , prediktorvektorn associerad med intercepttermen , är lika med 1 för alla i . Det visar sig att kvadraten på detta standardfel, den uppskattade variansen av skattningen av β j , kan uttryckas ekvivalent som:
där Rj 2 är multipeln R 2 för regressionen av X j på de andra kovariaterna (en regression som inte involverar svarsvariabeln Y ) . Denna identitet separerar influenserna från flera distinkta faktorer på variansen av koefficientuppskattningen:
- s 2 : större spridning i data runt regressionsytan leder till proportionellt sett större varians i koefficientuppskattningarna
- n : större urvalsstorlek resulterar i proportionellt sett mindre varians i koefficientuppskattningarna
- : större variabilitet i en viss kovariat leder till proportionellt mindre varians i motsvarande koefficientuppskattning
Den återstående termen, 1 / (1 − R j 2 ) är VIF. Den speglar alla andra faktorer som påverkar osäkerheten i koefficientskattningarna. med 1 när vektorn Xj är ortogonal mot varje kolumn i designmatrisen för regressionen av Xj på de andra kovariaterna. Däremot är VIF större än 1 när vektorn Xj inte är ortogonal mot alla kolumner i designmatrisen för regressionen av Xj på de andra kovariaterna. Slutligen , notera att VIF är invariant till skalningen av variablerna (det vill säga vi skulle kunna skala varje variabel X j med en konstant cj utan att ändra VIF).
Låt nu och utan att förlora allmänhet, ordnar vi om kolumnerna i X för att ställa in den första kolumnen till
- .
Genom att använda Schur-komplement är elementet i den första raden och första kolumnen i
Då har vi,
Här är regressionskoefficienten för beroende variabel över kovariat . är motsvarande restsumma av kvadrater .
Beräkning och analys
Vi kan beräkna k olika VIF:er (en för varje X i ) i tre steg:
Steg ett
Först kör vi en vanlig minsta kvadratregression som har X i som funktion av alla andra förklaringsvariabler i den första ekvationen. Om i = 1, till exempel, skulle ekvationen vara
där är en konstant och e är feltermen .
Steg två
Beräkna sedan VIF-faktorn för med följande formel:
där R 2 i är bestämningskoefficienten för regressionsekvationen i steg ett, med på vänster sida och alla andra prediktorvariabler (alla andra X-variabler) på höger sida sida.
Steg tre
Analysera storleken på multikollinearitet genom att överväga storleken på . En tumregel är att om så är multikollineariteten hög (en cutoff på 5 används också ofta). Det finns dock inget värde på VIF som är större än 0 där variansen av lutningarna för prediktorer inte är uppblåsta. Som ett resultat kommer att inkludera två eller flera variabler i en multipel regression som inte är ortogonala (dvs. har korrelation = 0), att ändra varandras lutning, SE av lutningen och P-värdet, eftersom det finns delad varians mellan prediktorerna som kan inte unikt tillskrivas någon av dem.
Vissa program beräknar istället toleransen som bara är den ömsesidiga av VIF. Valet av vilken du vill använda är en fråga om personlig preferens.
Tolkning
Kvadratroten ur variansinflationsfaktorn anger hur mycket större standardfelet ökar jämfört med om den variabeln hade 0 korrelation med andra prediktorvariabler i modellen.
Exempel Om variansinflationsfaktorn för en prediktorvariabel var 5,27 (√5,27 = 2,3), betyder det att standardfelet för koefficienten för den prediktorvariabeln är 2,3 gånger större än om den prediktorvariabeln hade 0-korrelation med de andra prediktorvariablerna.
Genomförande
-
vif
-funktion i bil R -paketet -
ols_vif_tol
-funktionen i olsrr R -paketet -
PROC REG
i SAS System -
varians_inflation_factor
funktion i statsmodels Python -paket -
estat vif
i Stata - r.vif addon för GRASS GIS
Vidare läsning
- Allison, PD (1999). Multipel regression: A Primer . Thousand Oaks, CA: Pine Forge Press. sid. 142.
- Hår, JF; Anderson, R.; Tatham, RL; Svart, WC (2006). Multivariat dataanalys . Upper Saddle River, NJ: Prentice Hall.
- Kutner, MH; Nachtsheim, CJ; Neter, J. (2004). Tillämpade linjära regressionsmodeller (4:e upplagan). McGraw-Hill Irwin.
- Longnecker, MT; Ott, RL (2004). En första kurs i statistiska metoder . Thomson Brooks/Cole. sid. 615.
- Marquardt, DW (1970). "Generaliserade inverser, åsregression, partisk linjär uppskattning och icke-linjär uppskattning". Teknometri . 12 (3): 591–612 [s. 605–7]. doi : 10.1080/00401706.1970.10488699 .
- Studenmund, AH (2006). Using Econometrics: A Practical Guide (5:e upplagan). Pearson International. s. 258–259.
- Zuur, AF; Ieno, EN; Elphick, CS (2010). "Ett protokoll för datautforskning för att undvika vanliga statistiska problem". Metoder i ekologi och evolution . 1 :3–14. doi : 10.1111/j.2041-210X.2009.00001.x . S2CID 18814132 .