Dummyvariabel (statistik)
I regressionsanalys är en dummyvariabel (även känd som indikatorvariabel eller bara dummy ) en som tar värdena 0 eller 1 för att indikera frånvaron eller närvaron av någon kategorisk effekt som kan förväntas förändra resultatet. Om vi till exempel studerade sambandet mellan biologiskt kön och inkomst, skulle vi kunna använda en dummyvariabel för att representera könet på varje individ i studien. Variabeln skulle få värdet 1 för män och 0 för kvinnor.
Dummyvariabler används vanligtvis i regressionsanalys för att representera kategoriska variabler som har fler än två nivåer, såsom utbildningsnivå eller yrke. I det här fallet skulle flera dummyvariabler skapas för att representera varje nivå av variabeln, och endast en dummyvariabel skulle få ett värde på 1 för varje observation. Dummyvariabler är användbara eftersom de tillåter oss att inkludera kategoriska variabler i vår analys, som annars skulle vara svåra att inkludera på grund av deras icke-numeriska karaktär. De kan också hjälpa oss att kontrollera för störande faktorer och förbättra validiteten hos våra resultat.
Som med alla tillägg av variabler till en modell kommer tillägget av dummyvariabler att öka modellanpassningen inom urvalet ( bestämningskoefficient ), men till en kostnad av färre frihetsgrader och förlust av modellens generalitet (modell utanför urvalet). passa). För många dummyvariabler resulterar i en modell som inte ger några generella slutsatser.
Dummyvariabler är användbara i olika fall. Till exempel, i ekonometrisk tidsserieanalys , kan dummyvariabler användas för att indikera förekomsten av krig eller större strejker . Det skulle alltså kunna ses som ett sanningsvärde representerat som ett numeriskt värde 0 eller 1 (som ibland görs i datorprogrammering).
Dummyvariabler kan utvidgas till mer komplexa fall. Till exempel kan säsongseffekter fångas genom att skapa dummyvariabler för var och en av årstiderna: D1=1 om observationen är för sommaren och annars är lika med noll; D2=1 om och endast om hösten, annars är lika med noll; D3=1 om och endast om vintern, annars är lika med noll; och D4=1 om och endast om fjädern, annars är lika med noll. I paneldata skapas estimatordockor för fasta effekter för var och en av enheterna i tvärsnittsdata (t.ex. företag eller länder) eller perioder i en sammanslagen tidsserie. Men i sådana regressioner måste antingen den konstanta termen tas bort, eller så måste en av dummies tas bort, vilket gör detta till baskategorin mot vilken de andra bedöms, av följande skäl:
Om dummyvariabler för alla kategorier inkluderades, skulle deras summa vara lika med 1 för alla observationer, vilket är identiskt med och därmed perfekt korrelerad med vektor-av-ett-variabeln vars koefficient är den konstanta termen; om vektorn-av-ett-variabeln också var närvarande, skulle detta resultera i perfekt multikollinearitet , så att matrisinversionen i uppskattningsalgoritmen skulle vara omöjlig. Detta kallas dummyvariabelfällan .
Se även
- Binär regression
- Chow test
- Hypotestestning
- Indikeringsfunktion
- Linjär diskriminantfunktion
- Multikollinearitet
Vidare läsning
- Asteriou, Dimitrios; Hall, SG (2015). "Dummyvariabler". Applied Econometrics (3:e upplagan). London: Palgrave Macmillan. s. 209–230. ISBN 978-1-137-41546-2 .
- Kooyman, Marius A. (1976). Dummy Variables in Econometrics . Tilburg: Tilburg University Press. ISBN 90-237-2919-6 .
externa länkar
- Maathuis, Marloes (2007). "Kapitel 7: Dummy variabel regression" (PDF) . Stat 423: Tillämpad regression och variansanalys . Arkiverad från originalet (PDF) den 16 december 2011.
- Fox, John (2010). "Dummy-variabel regression" (PDF) .
- Baker, Samuel L. (2006). "Dummyvariabler" (PDF) . Arkiverad från originalet (PDF) den 1 mars 2006.