Blandad logit
Del av en serie om |
modeller |
---|
för regressionsanalys |
Uppskattning |
Bakgrund |
Mixed logit är en helt allmän statistisk modell för att undersöka diskreta val . Den övervinner tre viktiga begränsningar av standard logit-modellen genom att tillåta slumpmässig smakvariation mellan väljare, obegränsade substitutionsmönster över val och korrelation i oobserverade faktorer över tid. Blandad logit kan välja vilken fördelning för de slumpmässiga koefficienterna, till skillnad från probit som är begränsad till normalfördelningen. Det kallas "mixed logit" eftersom valsannolikheten är en blandning av logits, med som blandningsfördelning. Det har visat sig att en blandad logitmodell kan approximera till vilken grad av noggrannhet som helst vilken sann slumpmässig nyttomodell som helst av diskret val, givet lämplig specifikation av variabler och koefficientfördelningen.
Slumpmässig smakvariation
Standard logit-modellens "smak"-koefficienter, eller s, är fasta, vilket betyder att s är desamma för alla. Blandad logit har olika för varje person (dvs varje beslutsfattare.)
I standardlogitmodellen är användbarheten av person för alternativ
med
- ~ iid extremvärde
För den blandade logitmodellen är denna specifikation generaliserad genom att tillåta att vara slumpmässig. Användbarheten av person för alternativ i den blandade logitmodellen är:
med
- ~ iid extremvärde
där θ är parametrarna för fördelningen av över populationen, såsom medelvärdet och variansen av .
Betingat av , är sannolikheten att person väljer alternativ standard logitformeln:
Men eftersom är slumpmässig och okänd, är den (ovillkorliga) valsannolikheten integralen av denna logitformel över densiteten av .
Denna modell kallas även logitmodellen för slumpmässig koefficient eftersom är en slumpvariabel. Den tillåter att nyttans lutning (dvs. marginalnyttan) är slumpmässig, vilket är en förlängning av modellen för slumpmässiga effekter där endast skärningen var stokastisk.
Vilken sannolikhetstäthetsfunktion som helst kan specificeras för fördelningen av koefficienterna i populationen, dvs för . Den mest använda distributionen är normal, främst för sin enkelhet. För koefficienter som tar samma tecken för alla personer, såsom en priskoefficient som nödvändigtvis är negativ eller koefficienten för ett önskvärt attribut, används distributioner med stöd på endast en sida av noll, som den lognormala. När koefficienter logiskt inte kan vara obegränsat stora eller små, används ofta begränsade distributioner, såsom eller triangulära distributioner.
Obegränsade substitutionsmönster
Den blandade logitmodellen kan representera ett generellt substitutionsmönster eftersom den inte uppvisar logits restriktiva oberoende av irrelevanta alternativs (IIA) egendom. Den procentuella förändringen i person s ovillkorliga sannolikhet att välja alternativ givet en procentuell förändring i det m: te attributet för alternativ ( elasticiteten för med avseende på är
där är det m: te elementet i . Det kan ses från denna formel att en tioprocentig reduktion för inte behöver innebära (som med logit) en tioprocentig minskning av varandra alternativ . Anledningen är att de relativa procenttalen beror på korrelationen mellan den villkorade sannolikheten att person väljer alternativ och den villkorade sannolikheten att person kommer att välja alternativ över olika dragningar av .
Korrelation i oobserverade faktorer över tid
Standard logit tar inte hänsyn till några oobserverade faktorer som kvarstår över tid för en given beslutsfattare. Detta kan vara ett problem om du använder paneldata, som representerar upprepade val över tid. Genom att tillämpa en standard logitmodell på paneldata gör du antagandet att de oobserverade faktorerna som påverkar en persons val är nya varje gång personen gör valet. Det är ett mycket osannolikt antagande. För att ta hänsyn till både slumpmässig smakvariation och korrelation i oobserverade faktorer över tid, specificeras nyttan för respondent n för alternativ i vid tidpunkten t enligt följande:
där underordet t är tidsdimensionen. Vi gör fortfarande logit-antagandet som är att är ett extremt värde. Det betyder att är oberoende över tid, personer och alternativ. är i huvudsak bara vitt brus. Korrelation över tid och över alternativ uppstår emellertid från den gemensamma effekten av som anger nytta i varje tidsperiod och varje alternativ.
För att undersöka korrelationen explicit, antag att β : en är normalfördelade med medelvärdet och varians . Då blir nyttoekvationen :
och η är ett drag från standardnormaldensiteten. Om du arrangerar om blir ekvationen:
där de oobserverade faktorerna är samlade i . Av de oobserverade faktorerna oberoende över tid, och är inte oberoende över tid eller alternativ.
är kovariansen mellan alternativen och
och kovariansen mellan tiden och är
Genom att specificera X på lämpligt sätt kan man få vilket mönster som helst av kovarians över tid och alternativ.
Betingat av , är sannolikheten för sekvensen av val av en person helt enkelt produkten av logit-sannolikheten för varje individuellt val av den personen:
eftersom är oberoende över tid. Då är den (ovillkorliga) sannolikheten för sekvensen av val helt enkelt integralen av denna produkt av logits över densiteten av .
Simulering
Tyvärr finns det ingen sluten form för integralen som kommer in i valsannolikheten, så forskaren måste simulera P n . Lyckligtvis för forskaren kan simulering av P n vara väldigt enkelt. Det finns fyra grundläggande steg att följa
1. Ta ett drag från sannolikhetstäthetsfunktionen som du angav för 'smak'-koefficienterna. Det vill säga, ta ett drag från och märk draget , för representerar den första dragningen.
2. Beräkna . (Den villkorade sannolikheten.)
3. Upprepa många gånger, för .
4. Genomsnitt av resultaten
Sedan ser formeln för simuleringen ut som följande,
där R är det totala antalet dragningar från fördelningen och r är en dragning.
När detta är gjort kommer du att ha ett värde för sannolikheten för varje alternativ i för varje respondent n.