Rubin kausal modell

Rubin -kausalmodellen ( RCM ), även känd som Neyman-Rubin-kausalmodellen , är ett tillvägagångssätt för den statistiska analysen av orsak och verkan baserat på ramen för potentiella utfall , uppkallad efter Donald Rubin . Namnet "Rubin kausal modell" myntades först av Paul W. Holland . Ramverket för potentiella resultat föreslogs först av Jerzy Neyman i sin magisteravhandling från 1923, även om han bara diskuterade det i samband med helt randomiserade experiment. Rubin utökade det till ett allmänt ramverk för att tänka på orsakssamband i både observationsstudier och experimentella studier.

Introduktion

Rubins kausala modell är baserad på idén om potentiella utfall. Till exempel skulle en person ha en viss inkomst vid 40 års ålder om de hade gått på college, medan de skulle ha en annan inkomst vid 40 års ålder om de inte hade gått på college. För att mäta den kausala effekten av att gå på college för den här personen måste vi jämföra resultatet för samma individ i båda alternativa framtider. Eftersom det är omöjligt att se båda potentiella utfallen samtidigt, saknas alltid ett av de potentiella utfallen. Detta dilemma är det "grundläggande problemet med kausal slutledning ."

På grund av det grundläggande problemet med kausal slutledning kan kausala effekter på enhetsnivå inte direkt observeras. Randomiserade experiment möjliggör dock uppskattning av orsakseffekter på populationsnivå. Ett randomiserat experiment tilldelar människor slumpmässigt till behandlingar: college eller ingen college. På grund av detta slumpmässiga uppdrag är grupperna (i genomsnitt) likvärdiga, och skillnaden i inkomst vid 40 års ålder kan hänföras till högskoleuppdraget eftersom det var den enda skillnaden mellan grupperna. En uppskattning av den genomsnittliga orsakseffekten (även kallad den genomsnittliga behandlingseffekten ) kan sedan erhållas genom att beräkna skillnaden i medelvärden mellan de behandlade (högskolebesökta) och kontrollproverna (ej högskolebesökta).

Under många omständigheter är dock randomiserade experiment inte möjliga på grund av etiska eller praktiska problem. I sådana scenarier finns en icke-slumpmässig tilldelningsmekanism. Detta är fallet för exemplet med collegenärvaro: människor tilldelas inte slumpmässigt att gå på college. Snarare kan människor välja att gå på college baserat på deras ekonomiska situation, föräldrars utbildning och så vidare. Många statistiska metoder har utvecklats för kausal slutledning, såsom propensity score matching . Dessa metoder försöker korrigera för tilldelningsmekanismen genom att hitta kontrollenheter som liknar behandlingsenheter.

Ett utökat exempel

Rubin definierar en orsakseffekt:

Intuitivt är orsakseffekten av en behandling, E, över en annan, C, för en viss enhet och ett tidsintervall från $t_{1}$ till $t_{2}$ skillnaden mellan vad som skulle ha hänt vid tidpunkten $t_{2}$ om enheten hade exponerats för E initierad vid $t_{1}$ och vad som skulle ha hänt vid $t_{ 2}$ om enheten hade exponerats för C initierad vid $t_{1}$ : 'Om jag för en timme sedan hade tagit två aspiriner istället för bara ett glas vatten, skulle min huvudvärk nu vara borta,' eller "eftersom jag tog två aspiriner för en timme sedan istället för bara ett glas vatten, min huvudvärk är nu borta." Vår definition av den kausala effekten av E kontra C-behandlingen kommer att återspegla denna intuitiva betydelse."

Enligt RCM är orsakseffekten av att du tog eller inte tog acetylsalicylsyra för en timme sedan skillnaden mellan hur ditt huvud skulle ha känts i fall 1 (att ta aspirin) och fall 2 (att inte ta aspirin). Om din huvudvärk skulle förbli utan acetylsalicylsyra men försvinna om du tog acetylsalicylsyra, är orsakseffekten av att ta acetylsalicylsyra huvudvärklindring. I de flesta fall är vi intresserade av att jämföra två terminer, en allmänt benämnd "behandling" och den andra "kontroll". Dessa etiketter är något godtyckliga.

Potentiella resultat

Anta att Joe deltar i ett FDA-test för ett nytt läkemedel mot högt blodtryck. Om vi var allvetande skulle vi veta resultaten för Joe under både behandling (det nya läkemedlet) och kontroll (antingen ingen behandling eller den nuvarande standardbehandlingen). Den kausala effekten, eller behandlingseffekten, är skillnaden mellan dessa två potentiella utfall.

ämne	$Y_{t}(u)$	$Y_{c}(u)$	$Y_{t}(u)-Y_{c}(u)$
Joe	130	135	−5

$Y_{t}(u)$ är Joes blodtryck om han tar det nya pillret. I allmänhet uttrycker denna notation det potentiella resultatet som blir resultatet av en behandling, t , på en enhet, u . På liknande sätt $Y_{c}(u)$ effekten av en annan behandling, c eller kontroll, på en enhet u . I det här fallet $Y_{c}(u)$ Joes blodtryck om han inte tar p-piller. $Y_{t}(u)-Y_{c}(u)$ är orsakseffekten av att ta det nya läkemedlet.

Från denna tabell vet vi bara orsakseffekten på Joe. Alla andra i studien kan få ett ökat blodtryck om de tar p-piller. Men oavsett vad orsakseffekten är för de andra försökspersonerna är orsakseffekten för Joe lägre blodtryck, i förhållande till vad hans blodtryck skulle ha varit om han inte hade tagit p-piller.

Tänk på ett större urval av patienter:

ämne	$Y_{t}(u)$	$Y_{c}(u)$	$Y_{t}(u)-Y_{c}(u)$
Joe	130	135	−5
Mary	140	150	−10
Utfall	135	125	10
Guppa	135	150	−15

Orsakseffekten är olika för varje individ, men läkemedlet fungerar för Joe, Mary och Bob eftersom orsakseffekten är negativ. Deras blodtryck är lägre med läkemedlet än det skulle ha varit om var och en inte tagit läkemedlet. För Sally å andra sidan orsakar läkemedlet en ökning av blodtrycket.

För att ett potentiellt resultat ska vara vettigt måste det vara möjligt, åtminstone a priori . Till exempel, om det inte finns något sätt för Joe, under några omständigheter, att få det nya läkemedlet, då $Y_{t}(u)$ omöjligt för honom. Det kan aldrig hända. Och om $Y_{t}(u)$ aldrig kan observeras, inte ens i teorin, så definieras inte orsakseffekten av behandlingen på Joes blodtryck.

Inget orsakssamband utan manipulation

Den kausala effekten av ett nytt läkemedel är väl definierad eftersom det är den enkla skillnaden mellan två potentiella utfall, som båda kan hända. I det här fallet kan vi (eller något annat) manipulera världen, åtminstone begreppsmässigt, så att det är möjligt att en sak eller en annan sak kan hända.

Denna definition av kausala effekter blir mycket mer problematisk om det inte finns något sätt för ett av de potentiella utfallen att inträffa, någonsin. Till exempel, vad är orsakseffekten av Joes längd på hans vikt? Naivt verkar detta likna våra andra exempel. Vi behöver bara jämföra två potentiella resultat: vad skulle Joes vikt vara under behandlingen (där behandlingen definieras som 3 tum högre) och vad skulle Joes vikt vara under kontroll (där kontroll definieras som hans nuvarande längd).

En stunds reflektion belyser problemet: vi kan inte öka Joes längd. Det finns inget sätt att observera, inte ens begreppsmässigt, vad Joes vikt skulle vara om han var längre eftersom det inte finns något sätt att göra honom längre. Vi kan inte manipulera Joes längd, så det är ingen mening att undersöka orsakseffekten av längd på vikten. Därav sloganen: Inget orsakssamband utan manipulation .

Stabil enhetsbehandlingsvärdeantagande (SUTVA)

Vi kräver att "observationen av [potentiellt resultat] på en enhet ska vara opåverkad av den särskilda tilldelningen av behandlingar till de andra enheterna" (Cox 1958, §2.4). Detta kallas det stabila enhetsbehandlingsvärdeantagandet (SUTVA), som går utöver begreppet oberoende.

I samband med vårt exempel bör Joes blodtryck inte bero på om Mary får läkemedlet eller inte. Men vad händer om det gör det? Anta att Joe och Mary bor i samma hus och Mary lagar alltid mat. Drogen får Mary att längta efter salt mat, så om hon tar drogen kommer hon att laga mat med mer salt än vad hon annars skulle ha gjort. En kost med hög salthalt ökar Joes blodtryck. Därför kommer hans utfall att bero på både vilken behandling han fick och vilken behandling Mary får.

SUTVA-överträdelse gör kausal slutledning svårare. Vi kan redogöra för beroende observationer genom att överväga fler behandlingar. Vi skapar 4 behandlingar genom att ta hänsyn till om Mary får behandling eller inte.

ämne	Joe = c, Mary = t	Joe = t, Mary = t	Joe = c, Mary = c	Joe = t, Mary = c
Joe	140	130	125	120

Kom ihåg att en kausal effekt definieras som skillnaden mellan två potentiella utfall. I det här fallet finns det flera orsakseffekter eftersom det finns fler än två potentiella utfall. Den ena är den kausala effekten av läkemedlet på Joe när Mary får behandling och beräknas, $130-140$ . En annan är den kausala effekten på Joe när Mary inte får behandling och beräknas till $120-125$ . Den tredje är orsakseffekten av Marys behandling på Joe när Joe inte behandlas. Detta beräknas som $140-125$ . Behandlingen som Mary får har en större orsakseffekt på Joe än behandlingen som Joe fick har på Joe, och den är i motsatt riktning.

Genom att överväga fler potentiella utfall på detta sätt kan vi få SUTVA att hålla. Men om några andra enheter än Joe är beroende av Mary, måste vi överväga ytterligare potentiella resultat. Ju fler beroende enheter, desto fler potentiella utfall måste vi ta hänsyn till och desto mer komplexa blir beräkningarna (tänk på ett experiment med 20 olika personer, vars behandlingsstatus kan påverka utfall för alla andra). För att (enkelt) kunna uppskatta den kausala effekten av en enstaka behandling i förhållande till en kontroll bör SUTVA hålla.

Genomsnittlig orsakseffekt

Överväga:

ämne	$Y_{t}(u)$	$Y_{c}(u)$	$Y_{t}(u)-Y_{c}(u)$
Joe	130	135	−5
Mary	130	145	−15
Utfall	130	145	−15
Guppa	140	150	−10
James	145	140	+5
BETYDA	135	143	−8

Man kan beräkna den genomsnittliga orsakseffekten genom att ta medelvärdet av alla kausala effekter.

Hur vi mäter responsen påverkar vilka slutsatser vi drar. Antag att vi mäter förändringar i blodtrycket som en procentuell förändring snarare än i absoluta värden. Sedan, beroende på de exakta siffrorna, kan den genomsnittliga orsakseffekten vara en ökning av blodtrycket. Anta till exempel att Georges blodtryck skulle vara 154 under kontroll och 140 med behandling. Den absoluta storleken på orsakseffekten är -14, men den procentuella skillnaden (i termer av behandlingsnivån på 140) är -10%. Om Sarahs blodtryck är 200 under behandling och 184 under kontroll, så är orsakseffekten i 16 i absoluta tal men 8% i termer av behandlingsvärdet. En mindre absolut förändring av blodtrycket (−14 mot 16) ger en större procentuell förändring (−10 % mot 8 %) för George. Även om den genomsnittliga orsakseffekten för George och Sarah är +1 i absoluta termer, är den −1 i procent.

Det grundläggande problemet med kausal slutledning

De resultat vi har sett hittills skulle aldrig mätas i praktiken. Det är per definition omöjligt att observera effekten av mer än en behandling på en patient under en viss tidsperiod. Joe kan inte både ta p-piller och inte ta p-piller samtidigt. Därför skulle uppgifterna se ut ungefär så här:

ämne	$Y_{t}(u)$	$Y_{c}(u)$	$Y_{t}(u)-Y_{c}(u)$
Joe	130	?	?

Frågetecken är svar som inte kunde observeras. Det grundläggande problemet med kausal slutledning är att det är omöjligt att direkt observera kausala effekter. Detta gör dock inte kausal slutledning omöjlig. Vissa tekniker och antaganden gör att det grundläggande problemet kan övervinnas.

Antag att vi har följande data:

ämne	$Y_{t}(u)$	$Y_{c}(u)$	$Y_{t}(u)-Y_{c}(u)$
Joe	130	?	?
Mary	?	125	?
Utfall	100	?	?
Guppa	?	130	?
James	?	120	?
BETYDA	115	125	−10

Vi kan sluta oss till vad Joes potentiella resultat under kontroll skulle ha varit om vi gjorde ett antagande om konstant effekt:

Y_{t}(u)=T+Y_{c}(u)

och

Y_{t}(u)-T=Y_{c}(u).

Om vi ville härleda de oobserverade värdena kunde vi anta en konstant effekt. Följande tabeller illustrerar data som överensstämmer med antagandet om en konstant effekt.

ämne	$Y_{t}(u)$	$Y_{c}(u)$	$Y_{t}(u)-Y_{c}(u)$
Joe	130	140	−10
Mary	115	125	−10
Utfall	100	110	−10
Guppa	120	130	−10
James	110	120	−10
BETYDA	115	125	−10

Alla försökspersoner har samma orsakseffekt även om de har olika resultat under behandlingen.

Tilldelningsmekanismen

Tilldelningsmekanismen, metoden genom vilken enheter tilldelas behandling, påverkar beräkningen av den genomsnittliga orsakseffekten. En sådan tilldelningsmekanism är randomisering. För varje ämne kan vi slå ett mynt för att avgöra om hon får behandling. Om vi ville att fem försökspersoner skulle få behandling kunde vi ge behandling till de fem första namnen vi plockar ur hatten. När vi slumpmässigt tilldelar behandlingar kan vi få olika svar.

Antag att dessa data är sanningen:

ämne	$Y_{t}(u)$	$Y_{c}(u)$	$Y_{t}(u)-Y_{c}(u)$
Joe	130	115	15
Mary	120	125	−5
Utfall	100	125	−25
Guppa	110	130	−20
James	115	120	−5
BETYDA	115	123	−8

Den sanna genomsnittliga orsakseffekten är -8. Men den kausala effekten för dessa individer är aldrig lika med detta genomsnitt. Den kausala effekten varierar, som den i allmänhet (alltid?) gör i verkliga livet. Efter att ha tilldelats behandlingar slumpmässigt kan vi uppskatta orsakseffekten som:

ämne	$Y_{t}(u)$	$Y_{c}(u)$	$Y_{t}(u)-Y_{c}(u)$
Joe	130	?	?
Mary	120	?	?
Utfall	?	125	?
Guppa	?	130	?
James	115	?	?
BETYDA	121,66	127,5	−5,83

En annan slumpmässig tilldelning av behandlingar ger en annan uppskattning av den genomsnittliga orsakseffekten.

ämne	$Y_{t}(u)$	$Y_{c}(u)$	$Y_{t}(u)-Y_{c}(u)$
Joe	130	?	?
Mary	120	?	?
Utfall	100	?	?
Guppa	?	130	?
James	?	120	?
BETYDA	116,67	125	−8.33

Den genomsnittliga orsakseffekten varierar eftersom vårt urval är litet och svaren har stor varians . Om urvalet var större och variansen var mindre, skulle den genomsnittliga orsakseffekten vara närmare den sanna genomsnittliga orsakseffekten oavsett de specifika enheter som slumpmässigt tilldelats behandlingen.

Anta alternativt att mekanismen tilldelar behandlingen till alla män och endast till dem.

ämne	$Y_{t}(u)$	$Y_{c}(u)$	$Y_{t}(u)-Y_{c}(u)$
Joe	130	?	?
Guppa	110	?	?
James	105	?	?
Mary	?	130	?
Utfall	?	125	?
Laila	?	135	?
BETYDA	115	130	−15

Enligt denna tilldelningsmekanism är det omöjligt för kvinnor att få behandling och därför omöjligt att fastställa den genomsnittliga orsakseffekten på kvinnliga försökspersoner. För att kunna dra några slutsatser om orsakseffekter på en patient måste sannolikheten att patienten får behandling vara större än 0 och mindre än 1.

Den perfekta doktorn

Överväg användningen av den perfekta läkaren som en tilldelningsmekanism. Den perfekta läkaren vet hur varje försöksperson kommer att reagera på läkemedlet eller kontrollen och tilldelar varje individ den behandling som kommer att gynna henne mest. Den perfekta läkaren känner till denna information om ett urval av patienter:

ämne	$Y_{t}(u)$	$Y_{c}(u)$	$Y_{t}(u)-Y_{c}(u)$
Joe	130	115	15
Guppa	120	125	−5
James	100	150	−50
Mary	115	125	−10
Utfall	120	130	−10
Laila	135	105	30
BETYDA	120	125	−5

Baserat på denna kunskap skulle hon göra följande behandlingsuppdrag:

ämne	$Y_{t}(u)$	$Y_{c}(u)$	$Y_{t}(u)-Y_{c}(u)$
Joe	?	115	?
Guppa	120	?	?
James	100	?	?
Mary	115	?	?
Utfall	120	?	?
Laila	?	105	?
BETYDA	113,75	110	3,75

Den perfekta läkaren förvränger båda medelvärdena genom att filtrera bort dåliga svar på både behandlingen och kontrollen. Skillnaden mellan medel, som är den förmodade genomsnittliga orsakseffekten, förvrängs i en riktning som beror på detaljerna. Till exempel skulle en försöksperson som Laila som skadas av att ta drogen tilldelas kontrollgruppen av den perfekta läkaren och på så sätt skulle den negativa effekten av drogen maskeras.

Slutsats

Den kausala effekten av en behandling på en enstaka enhet vid en tidpunkt är skillnaden mellan utfallsvariabeln med behandlingen och utan behandlingen. Det grundläggande problemet med kausal slutledning är att det är omöjligt att observera den kausala effekten på en enda enhet. Antingen tar du aspirin nu eller så gör du det inte. Som en konsekvens måste antaganden göras för att uppskatta de saknade kontrafakta.

Rubins kausala modell har också kopplats till instrumentella variabler (Angrist, Imbens och Rubin, 1996) och andra tekniker för kausal slutledning. För mer om sambanden mellan Rubins kausala modell, strukturell ekvationsmodellering och andra statistiska metoder för kausal slutledning, se Morgan och Winship (2007) och Pearl (2000). Pearl (2000) hävdar att alla potentiella utfall kan härledas från strukturella ekvationsmodeller (SEMs) och därmed förenar ekonometri och modern kausalanalys.

Se även

Vidare läsning

Guido Imbens & Donald Rubin (2015). Causal inferens för statistik, sociala och biomedicinska vetenskaper: en introduktion . Cambridge: Cambridge University Press. doi:10.1017/CBO9781139025751
Donald Rubin (1977) "Assignment to Treatment Group on the Basis of a Covariate", Journal of Educational Statistics , 2, s. 1–26.
Rubin, Donald (1978) "Bayesian Inference for Causal Effects: The Role of Randomization", The Annals of Statistics , 6, s. 34–58.

externa länkar

"Rubin Causal Model" : en artikel för New Palgrave Dictionary of Economics av Guido Imbens och Donald Rubin .
"Counterfactual Causal Analysis" : en webbsida som underhålls av Stephen Morgan, Christopher Winship och andra med länkar till många forskningsartiklar om kausal slutledning.