Orsaksdiagram

Inom statistik, ekonometri, epidemiologi, genetik och relaterade discipliner är kausala grafer (även kända som path diagrams , causal Bayesian networks eller DAGs ) probabilistiska grafiska modeller som används för att koda antaganden om datagenereringsprocessen.

Kausala grafer kan användas för kommunikation och för slutledning. De är komplementära till andra former av kausala resonemang, till exempel med kausal likhetsnotation. Som kommunikationsenheter ger graferna en formell och transparent representation av de orsaksantaganden som forskare kan vilja förmedla och försvara. Som inferensverktyg gör graferna det möjligt för forskare att uppskatta effektstorlekar från icke-experimentella data, härleda testbara implikationer av de kodade antagandena, testa för extern validitet och hantera saknade data och urvalsbias.

Kausala grafer användes först av genetikern Sewall Wright under rubriken "path diagrams". De antogs senare av samhällsvetare och, i mindre utsträckning, av ekonomer. Dessa modeller var initialt begränsade till linjära ekvationer med fasta parametrar. Modern utveckling har utvidgat grafiska modeller till icke-parametrisk analys, och därmed uppnått en generalitet och flexibilitet som har förändrat kausalanalys inom datavetenskap, epidemiologi och samhällsvetenskap.

Konstruktion och terminologi

Den kausala grafen kan ritas på följande sätt. Varje variabel i modellen har en motsvarande vertex eller nod och en pil dras från en variabel X till en variabel Y närhelst Y bedöms svara på förändringar i X när alla andra variabler hålls konstanta. Variabler kopplade till Y genom direkta pilar kallas föräldrar till Y , eller "direkta orsaker till Y ," och betecknas med Pa(Y) .

Orsaksmodeller inkluderar ofta "feltermer" eller "utelämnade faktorer" som representerar alla omätade faktorer som påverkar en variabel Y när Pa(Y) hålls konstant. I de flesta fall exkluderas feltermer från grafen. Men om grafförfattaren misstänker att feltermerna för två variabler är beroende (t.ex. de två variablerna har en oobserverad eller latent gemensam orsak) så dras en dubbelriktad båge mellan dem. Således beaktas närvaron av latenta variabler genom korrelationerna de inducerar mellan feltermerna, som representeras av dubbelriktade bågar.

Grundläggande verktyg

Ett grundläggande verktyg i grafisk analys är d-separation , som gör det möjligt för forskare att genom inspektion avgöra om orsaksstrukturen innebär att två uppsättningar av variabler är oberoende givet en tredje uppsättning. I rekursiva modeller utan korrelerade feltermer (ibland kallade Markovian ), representerar dessa villkorade oberoende modellens alla testbara implikationer.

Exempel

Anta att vi vill uppskatta effekten av att gå på ett elithögskola på framtida inkomster. Att helt enkelt sänka inkomsterna på collegebetyg ger inte en opartisk uppskattning av måleffekten eftersom elithögskolor är mycket selektiva och studenter som går på dem kommer sannolikt att ha kvalifikationer för höginkomstarbeten innan de går i skolan. Om man antar att orsakssambanden är linjära kan denna bakgrundskunskap uttryckas i följande för strukturekvationsmodeller ( SEM).

Modell 1

där representerar individens kvalifikationer före college, representerar kvalifikationer efter college, innehåller attribut som representerar kvaliteten på college som gått, och individens lön.

Figur 1: Oidentifierad modell med latenta variabler ( och ) visas explicit
Figur 2: Oidentifierad modell med latenta variabler sammanfattade

Figur 1 är en kausal graf som representerar denna modellspecifikation. Varje variabel i modellen har en motsvarande nod eller vertex i grafen. Dessutom, för varje ekvation, dras pilar från de oberoende variablerna till de beroende variablerna. Dessa pilar reflekterar riktningen för orsakssambandet. I vissa fall kan vi märka pilen med dess motsvarande strukturella koefficient som i figur 1.

Om och är oobserverade eller latenta variabler kan deras inflytande på och tillskrivas deras feltermer . Genom att ta bort dem får vi följande modellspecifikation:

Modell 2

Bakgrundsinformationen som specificeras av modell 1 antyder att feltermen för , , är korrelerad med C :s felterm, . Som ett resultat lägger vi till en dubbelriktad båge mellan S och C , som i figur 2.

Figur 3: Identifierad modell med latenta variabler ( och ) visas explicit
Figur 4: Identifierad modell med latenta variabler sammanfattade

Eftersom är korrelerad med och därför är C endogen och identifieras inte i modell 2. Men om vi inkluderar styrkan av en individs högskoleansökan, som visas i figur 3, får vi följande modell:

Modell 3

Genom att ta bort de latenta variablerna från modellspecifikationen får vi:

Modell 4

med korrelerad med .

Nu är identifierad och kan uppskattas med hjälp av regressionen av och . Detta kan verifieras genom att använda endörrskriteriet , ett nödvändigt och tillräckligt grafiskt villkor för identifiering av en strukturell koefficient, som , med hjälp av regression.