Multikollinearitet

Inom statistik är multikollinearitet (även kollinearitet ) ett fenomen där en prediktorvariabel i en multipel regressionsmodell kan förutsägas linjärt från de andra med en betydande grad av noggrannhet . I denna situation kan koefficientuppskattningarna av den multipla regressionen ändras oregelbundet som svar på små förändringar i modellen eller data. Multikollinearitet minskar inte den prediktiva kraften eller tillförlitligheten hos modellen som helhet, åtminstone inom provdatauppsättningen; det påverkar bara beräkningar av enskilda prediktorer . Det vill säga, en multivariabel regressionsmodell med kolinjära prediktorer kan indikera hur väl hela paketet av prediktorer förutsäger utfallsvariabeln, men det kanske inte ger giltiga resultat om någon enskild prediktor, eller om vilka prediktorer som är överflödiga i förhållande till andra.

Observera att i uttalanden om antaganden som ligger till grund för regressionsanalyser såsom vanliga minsta kvadrater , refererar frasen "ingen multikollinearitet" vanligtvis till frånvaron av perfekt multikollinearitet, vilket är en exakt (icke-stokastisk) linjär relation mellan prediktorerna. I ett sådant fall designmatrisen mindre än full rang , och därför kan momentmatrisen inte inverteras . Under dessa omständigheter, för en generell linjär modell den vanliga minsta kvadrat-estimatorn .

I alla fall är multikollinearitet en egenskap hos designmatrisen, inte den underliggande statistiska modellen .

Multikollinearitet leder till icke identifierbara parametrar.

Definition

En skildring av multikollinearitet

Kollinearitet är en linjär association mellan två förklarande variabler . Två variabler är helt kollinjära om det finns ett exakt linjärt samband mellan dem. Till exempel och perfekt kollinjära om det finns parametrar och så att för alla observationer ,

.

Multikollinearitet avser en situation där mer än två förklaringsvariabler i en multipel regressionsmodell är mycket linjärt relaterade. Det finns perfekt multikollinearitet om, till exempel som i ekvationen ovan, korrelationen mellan två oberoende variabler är lika med 1 eller −1. I praktiken är perfekt multikollinearitet i en datamängd sällsynt. Vanligare är att frågan om multikollinearitet uppstår när det finns ett ungefärligt linjärt samband mellan två eller flera oberoende variabler.

Matematiskt är en uppsättning variabler perfekt multikollinjär om det finns ett eller flera exakta linjära samband mellan några av variablerna. Det vill säga för alla observationer ,

 

 

 

 

()

där är konstanter och är observationen på förklarande variabel.

För att utforska ett problem som orsakas av multikollinearitet, överväg processen att försöka erhålla uppskattningar för parametrarna i den multipla regressionsekvationen

.

De vanliga minsta kvadraternas uppskattningar involverar invertering av matrisen där

är en matris, där är antalet observationer, är antalet förklarande variabler, och . Om det finns ett exakt linjärt samband (perfekt multikollinearitet) bland de oberoende variablerna, så är åtminstone en av kolumnerna i en linjär kombination av de andra, och så rangordningen av X ( och därför av ) är mindre än , och matrisen kommer inte att vara inverterbar.

Perfekt multikollinearitet är ganska vanligt när man arbetar med rådatauppsättningar, som ofta innehåller redundant information. När redundanser väl har identifierats och tagits bort kvarstår emellertid nästan multikollinjära variabler ofta på grund av korrelationer som är inneboende i det system som studeras. I ett sådant fall kan ekvation ( 1 ) modifieras för att inkludera en felterm :

.

I det här fallet finns det inget exakt linjärt samband mellan variablerna, men variablerna är nästan perfekt multikollinjära om variansen för är liten för någon uppsättning av värden för s. I detta fall har matrisen om den kan, kan den resulterande beräknade inversen vara mycket känslig för små variationer i datan (på grund av förstorade effekter av antingen avrundningsfel eller små variationer i de samplade datapunkterna) och kan därför vara felaktig eller sampelberoende.

Upptäckt

Följande är indikatorer på att multikollinearitet kan finnas i en modell:

  1. Stora förändringar i de uppskattade regressionskoefficienterna inträffar när en prediktorvariabel läggs till eller tas bort.
  2. Insignifikanta regressionskoefficienter för de påverkade variablerna förekommer i multipel regression, trots ett förkastande av den gemensamma hypotesen att dessa koefficienter alla är noll (med ett F -test ).
  3. Om en multivariabel regression hittar en obetydlig koefficient för en viss förklaring, men en enkel linjär regression av den förklarade variabeln på denna förklaringsvariabel visar att dess koefficient är signifikant skild från noll - den här situationen indikerar multikollinearitet i den multivariabla regressionen.


  4. Vissa författare har föreslagit en formell detektionstolerans eller variansinflationsfaktorn ( VIF) för multikollinearitet: där är bestämningskoefficienten för en regression av förklaringen på alla andra förklaringar. En tolerans på mindre än 0,20 eller 0,10, en VIF på 5 eller 10 och högre, eller båda, indikerar ett multikollinearitetsproblem.
  5. Farrar–Glauber-test : Om variablerna visar sig vara ortogonala finns det ingen multikollinearitet; om variablerna inte är ortogonala, så finns åtminstone en viss grad av multikollinearitet. C. Robert Wichers har hävdat att Farrar–Glaubers partiella korrelationstest är ineffektivt eftersom en given partiell korrelation kan vara kompatibel med olika multikollinearitetsmönster. Farrar–Glauber-testet har också kritiserats av andra forskare.
  6. Tillståndsnummertest : Standardmåttet på dålig kondition i en matris är tillståndsindex. Detta bestämmer om inversionen av matrisen är numeriskt instabil med ändliga precisionstal (standarddatorn flyter och dubblar ), vilket indikerar den potentiella känsligheten hos den beräknade inversen för små förändringar i den ursprungliga matrisen. Villkorsnumret beräknas genom att hitta kvadratroten av det maximala egenvärdet dividerat med det minsta egenvärdet för designmatrisen . Om tillståndstalet är över 30 kan regressionen ha allvarlig multikollinearitet; multikollinearitet föreligger om dessutom två eller flera av variablerna relaterade till det höga tillståndstalet har höga variansandelar förklarade. En fördel med denna metod är att den också visar vilka variabler som orsakar problemet.
  7. Störande data : Multikollinearitet kan detekteras genom att lägga till slumpmässigt brus till data, köra om regressionen många gånger och se hur mycket koefficienterna förändras.
  8. Konstruktion av en korrelationsmatris bland de förklarande variablerna ger indikationer på sannolikheten för att varje given kuplett av högersidiga variabler skapar multikollinearitetsproblem. Korrelationsvärden (off-diagonala element) på minst 0,4 tolkas ibland som att de indikerar ett multikollinearitetsproblem. Denna procedur är dock mycket problematisk och kan inte rekommenderas. Intuitivt beskriver korrelation ett bivariat förhållande, medan kollinearitet är ett multivariat fenomen.

Konsekvenser

I en linjär regression är de sanna parametrarna som uppskattas tillförlitligt i fallet med okorrelerad och (svart skiftläge) men uppskattas otillförlitligt när och är korrelerade (röd växellåda ).

En konsekvens av en hög grad av multikollinearitet är att även om matrisen är inverterbar, kan en datoralgoritm misslyckas med att erhålla en ungefärlig invers, och om den erhåller en, kan inversen vara numeriskt felaktig. Men även i närvaro av en exakt -matris uppstår följande konsekvenser.

Den vanliga tolkningen av en regressionskoefficient är att den uppskattar effekten av en ändring av en enhet i en oberoende variabel, som håller de andra variablerna konstanta. I närvaro av multikollinearitet tenderar detta att vara mindre exakt än om prediktorer var okorrelerade med varandra. Om är starkt korrelerad med en annan oberoende variabel i den givna datamängden, då och har ett speciellt linjärt stokastiskt förhållande i uppsättningen. Med andra ord, ändringar i är inte oberoende av ändringar i . Denna korrelation skapar en oprecis uppskattning av effekten av oberoende förändringar i .

I någon mening innehåller de kolinjära variablerna samma information om den beroende variabeln. Om nominellt "olika" mått kvantifierar samma fenomen, då är de överflödiga. Alternativt, om variablerna ges olika namn och kanske använder olika numeriska mätskalor men är starkt korrelerade med varandra, så lider de av redundans.

En av egenskaperna hos multikollinearitet är att standardfelen för de påverkade koefficienterna tenderar att vara stora. I det här fallet kan testet av hypotesen att koefficienten är lika med noll leda till ett misslyckande att förkasta en falsk nollhypotes om ingen effekt av förklaringen, ett typ II-fel .

Ett annat problem med multikollinearitet är att små förändringar av indata kan leda till stora förändringar i modellen, till och med resultera i förändringar i tecknet för parameteruppskattningar.

En huvudsaklig fara med sådan dataredundans är överanpassning i regressionsanalysmodeller . De bästa regressionsmodellerna är de där prediktorvariablerna var och en korrelerar högt med den beroende variabeln (utfall) men korrelerar endast minimalt med varandra. En sådan modell kallas ofta "lågbrus" och kommer att vara statistiskt robust (det vill säga att den kommer att förutsäga på ett tillförlitligt sätt över flera urval av variabeluppsättningar från samma statistiska population).

Så länge som den underliggande specifikationen är korrekt, påverkar inte multikollinearitet resultaten; det producerar bara stora standardfel i de relaterade oberoende variablerna. Ännu viktigare är att den vanliga användningen av regression är att ta koefficienter från modellen och sedan tillämpa dem på andra data. Eftersom multikollinearitet orsakar oprecisa uppskattningar av koefficientvärden, kommer de resulterande out-of-sample-förutsägelserna också att vara oprecisa. Och om mönstret av multikollinearitet i den nya datan skiljer sig från den i data som monterades, kan sådan extrapolering introducera stora fel i förutsägelserna.

Men om den underliggande specifikationen är något mindre än fullständig och korrekt, förstärker multikollinearitet felspecifikationsbiaser. Även om det inte ofta känns igen i metodtexter är detta ett vanligt problem inom samhällsvetenskapen där en fullständig, korrekt specifikation av en OLS-regressionsmodell sällan är känd och åtminstone några relevanta variabler kommer att vara oobserverbara. Som ett resultat kommer de uppskattade koefficienterna för korrelerade oberoende variabler i en OLS-regression att vara partiska av multikollinearitet. När korrelationen närmar sig ett, kommer koefficientuppskattningarna missvisande att tendera mot oändliga magnituder i motsatta riktningar, även om variablernas verkliga effekter är små och av samma tecken.

botemedel

  1. Undvik dummy-variabelfällan ; inklusive en dummyvariabel för varje kategori (t.ex. sommar, höst, vinter och vår) och inklusive en konstant term i regressionen garanterar tillsammans perfekt multikollinearitet.
  2. Använd oberoende delmängder av data för uppskattning och tillämpa sedan dessa uppskattningar på hela datamängden. Detta kan resultera i en något högre varians än för delmängderna, men förväntan på koefficientvärdena bör vara densamma. Observera hur mycket koefficientvärdena varierar.
  3. Lämna modellen som den är, trots multikollinearitet. Förekomsten av multikollinearitet påverkar inte effektiviteten av att extrapolera den anpassade modellen till nya data, förutsatt att prediktorvariablerna följer samma mönster av multikollinearitet i de nya data som i de data som regressionsmodellen är baserad på.
  4. Släpp en av variablerna. En förklarande variabel kan släppas för att producera en modell med signifikanta koefficienter. Men detta förlorar information. Utelämnande av en relevant variabel resulterar i snedställda koefficientestimat för de återstående förklarande variablerna som är korrelerade med den utelämnade variabeln.
  5. Skaffa mer data om möjligt. Detta är den föredragna lösningen. Mer data kan ge mer exakta parameteruppskattningar (med lägre standardfel), som framgår av formeln i variansinflationsfaktorn för variansen av skattningen av en regressionskoefficient i termer av urvalsstorleken och graden av multikollinearitet.
  6. Medelcentrera prediktorvariablerna. Generera polynomtermer (dvs för , , , etc.) eller interaktionstermer (dvs. etc.) kan orsaka viss multikollinearitet om variabeln i fråga har ett begränsat intervall (t.ex. [2) ,4]). Medelcentrering kommer att eliminera denna speciella typ av multikollinearitet. Men generellt sett har detta ingen effekt. Det kan vara användbart för att övervinna problem som uppstår från avrundning och andra beräkningssteg om ett noggrant utformat datorprogram inte används.
  7. Standardisera de oberoende variablerna. Detta kan bidra till att minska en falsk flaggning av ett tillståndsindex över 30.
  8. Det har också föreslagits att genom att använda Shapley-värdet , ett spelteoretiskt verktyg, kan modellen redogöra för effekterna av multikollinearitet. Shapley-värdet tilldelar ett värde för varje prediktor och bedömer alla möjliga kombinationer av betydelse.
  9. Använd Tikhonov-regularisering (även känd som åsregression ).
  10. Använd huvudkomponentregression .
  11. Använd partiell minsta kvadraters regression .
  12. Om de korrelerade förklaringarna är olika fördröjda värden av samma underliggande förklaring, kan en distribuerad fördröjningsteknik användas, som lägger en generell struktur på de relativa värdena för de koefficienter som ska uppskattas.
  13. Behandla mycket linjärt relaterade variabler som en grupp och studera deras gruppeffekter (se diskussion nedan) istället för deras individuella effekter. På gruppnivå är multikollinearitet inget problem, så inga botemedel behövs.

Multikollinearitet och gruppeffekter

Starkt korrelerade prediktorvariabler framträder naturligt som en grupp. Deras samlade inverkan på svarsvariabeln kan mätas genom gruppeffekter. För en grupp av prediktorvariabler definieras en gruppeffekt som en linjär kombination av deras parametrar:

där är en viktvektor som uppfyller . Den har en tolkning som den förväntade förändringen i svarsvariabeln när variabler i gruppen ändras med mängden respektive samtidigt med variabler som inte finns i gruppen höll konstant. Gruppeffekter generaliserar de individuella effekterna genom att (1) om så reduceras gruppeffekten till en individuell effekt, och (2) om och för , då reduceras även gruppeffekten till en individuell effekt. En gruppeffekt sägs vara meningsfull om de underliggande samtidiga ändringarna av -variablerna representerade av viktvektorn är troliga. När är en grupp av starkt korrelerade variabler, gruppeffekt eftersom dess underliggande samtidiga förändringar representeras av . Detta beror på att det, på grund av deras starka korrelationer, är osannolikt att andra variabler i gruppen kommer att förbli oförändrade när ökar med en enhet. Denna observation gäller även parametrar för andra variabler i gruppen.

För starkt korrelerade prediktorvariabler kan gruppeffekter som inte är meningsfulla, såsom inte exakt uppskattas genom minsta kvadraters regression. Å andra sidan kan meningsfulla gruppeffekter uppskattas exakt genom minsta kvadraters regression. Detta visar att starkt korrelerade prediktorvariabler bör hanteras som en grupp, och multikollinearitet är inte ett problem på gruppnivå. För en diskussion om hur man identifierar meningsfulla gruppeffekter, se linjär regression .

Förekomst

Överlevnadsanalys

Multikollinearitet kan utgöra ett allvarligt problem i överlevnadsanalys . Problemet är att tidsvarierande kovariater kan ändra sitt värde över studiens tidslinje. En speciell procedur rekommenderas för att bedöma effekten av multikollinearitet på resultaten.

Räntor för olika löptider

I olika situationer kan det antas att flera räntor med olika löptider alla påverkar ett ekonomiskt beslut, såsom hur mycket pengar eller någon annan finansiell tillgång som ska innehas, eller mängden fasta investeringar att ägna sig åt. Inkluderande dessa olika räntor kommer i allmänhet att skapa ett betydande multikollinearitetsproblem eftersom räntorna tenderar att röra sig tillsammans. Om var och en av räntorna har sin separata effekt på den beroende variabeln kan det vara extremt svårt att skilja ut deras effekter.

Gemensamma faktorer

Den förspänningsförstärkande kombinationen av multikollinearitet och felspecifikation kan uppstå när studier försöker reta ut effekterna av två oberoende variabler som (1) är kopplade av en substantiv gemensam faktor och (2) innehåller oobserverbara men substantiella komponenter (inte bara feltermer) som är ortogonala mot den gemensamma faktorn och som påverkar den beroende variabeln separat från alla effekter av den gemensamma faktorn.

Till exempel inkluderar studier ibland samma variabel två gånger i en regression, mätt vid två olika tidpunkter. En tidsinvariant faktor som är gemensam för båda variablerna orsakar multikollineariteten, medan den icke observerbara karaktären hos den gemensamma faktorn eller de tidsspecifika ortogonala komponenterna orsakar felspecifikationen. Samma struktur kan gälla andra materiella variabelpar med en gemensam faktor såsom två typer av kunskap, intelligens, konflikt eller finansiella mått (som räntorna som nämns ovan).

De två huvudsakliga implikationerna av förekomsten av sådana gemensamma faktorer bland oberoende variabler i en regressionsanalys är att när korrelationen av oberoende variabler närmar sig en på grund av en betydande gemensam faktor, (1) kommer deras koefficientuppskattningar missvisande att tendera mot oändliga magnituder i motsatta riktningar. riktningar, även om variablernas sanna effekter är små och av samma tecken, och (2) storleken på de förspända koefficienterna kommer att förstärkas i samma takt som standardfelen och därför kan t-statistik förbli artificiellt stor. Kontraintuitiva typ I-fel är ett troligt resultat, snarare än de typ II-fel som vanligtvis förknippas med multikollinearitet.

För att övertyga läsarna om att denna form av multikollinearitet inte är fördomsfulla resultat bör studier inte bara "släppa" en av de kolinjära variablerna. Snarare bör de presentera separata regressionsresultat med var och en av de kolinjära variablerna isolerad följt av en regression som innehåller båda variablerna. Konsekventa koefficienttecken och magnituder över dessa specifikationer representerar starka bevis för att multikollinearitet med gemensam faktor inte är fördomsfulla resultat.

Förlängning

Begreppet lateral kollinearitet utvidgar den traditionella synen på multikollinearitet, och omfattar även kollinearitet mellan förklarande och kriterie- (dvs förklarade) variabler, i den meningen att de kan mäta nästan samma sak som varandra.

Se även

Vidare läsning

externa länkar