Vine copula

En vinstock är ett grafiskt verktyg för märkning av begränsningar i högdimensionella sannolikhetsfördelningar . En vanlig vinstock är ett specialfall där alla begränsningar är tvådimensionella eller villkorade tvådimensionella. Regelbundna vinstockar generaliserar träd och är själva specialiseringar av Cantor tree .

I kombination med bivariata copulas har vanliga vinstockar visat sig vara ett flexibelt verktyg i högdimensionell beroendemodellering. Kopler är multivariata distributioner med enhetliga univariata marginaler. Att representera en gemensam fördelning som univariata marginaler plus copulas möjliggör separation av problemen med att uppskatta univariata distributioner från problemen med att uppskatta beroende. Detta är praktiskt eftersom univariata fördelningar i många fall kan uppskattas på ett adekvat sätt från data, medan beroendeinformation är grovt känd, med sammanfattande indikatorer och bedömningar. Även om antalet parametriska multivariata copulafamiljer med flexibelt beroende är begränsat, finns det många parametriska familjer av bivariat copula. Vanliga vinstockar har sin ökande popularitet tack vare det faktum att de utnyttjar bivariata copulas och möjliggör förlängningar till godtyckliga dimensioner. Provtagningsteori och uppskattningsteori för vanliga vinstockar är väl utvecklade och modellinferens har lämnat posten. Regelbundna vinstockar har visat sig användbara i andra problem såsom (begränsad) provtagning av korrelationsmatriser, uppbyggnad av icke-parametriska kontinuerliga Bayesianska nätverk .

Till exempel, inom finans har vine copulas visat sig effektivt modellera svansrisken i portföljoptimeringsapplikationer.

Historiskt ursprung

Den första vanliga vinstocken, avant la lettre, introducerades av Harry Joe. Motivet var att utöka parametriska bivariata extremvärde kopulafamiljer till högre dimensioner. För detta ändamål introducerade han vad som senare skulle kallas D-vinstocken . Joe var intresserad av en klass av n-variatfördelningar med givna endimensionella marginaler och n ( n − 1) beroendeparametrar, varvid n − 1 parametrar motsvarar bivariata marginaler, och de andra motsvarar villkorade bivariata marginaler. I fallet med multivariata normalfördelningar skulle parametrarna vara n − 1 korrelationer och ( n − 1)( n − 2)/2 partiella korrelationer , som noterades vara algebraiskt oberoende i (−1, 1).

En helt annan motivation låg bakom den första formella definitionen av vinstockar i Cooke. Osäkerhetsanalyser av stora riskmodeller, som de som genomförts för Europeiska unionen och den amerikanska kärnkraftskommissionen för olyckor vid kärnkraftverk, innebär att kvantifiera och sprida osäkerhet över hundratals variabler. Beroendeinformation för sådana studier hade fångats med Markov-träd , som är träd konstruerade med noder som univariata slumpvariabler och kanter som bivariata copulas. För n variabler finns det högst n − 1 flanker för vilka beroende kan anges. Nya tekniker vid den tiden innebar att erhålla osäkerhetsfördelningar på modelleringsparametrar genom att framkalla experters osäkerhet om andra variabler som förutsägs av modellerna. Dessa osäkerhetsfördelningar dras tillbaka till modellens parametrar genom en process som kallas probabilistisk inversion. De resulterande distributionerna visade ofta en beroendestruktur som inte kunde fångas som ett Markovträd.

Grafiska modeller som kallas vinstockar introducerades i En viktig egenskap hos vinstockar är att de kan lägga till villkorliga beroenden bland variabler ovanpå ett Markovträd, vilket i allmänhet är för sparsamt för att sammanfatta beroendet mellan variabler.

Vanliga vinstockar (R-vinstockar)

C-vine på 4 variabler
D-vine på 4 variabler
R-vine på 5 variabler

En vinstock V n variabler är en kapslad uppsättning anslutna träd där kanterna i det första trädet är noderna på det andra trädet, kanterna på det andra trädet är noderna på det tredje trädet, etc. En vanlig vinstock eller R- vinstockar n variabler är en vinstock där två kanter i träd j är förenade med en kant i träd j + 1 endast om dessa kanter delar en gemensam nod, j = 1, ..., n − 2. Noderna i den första träd är univariata slumpvariabler. Kanterna är begränsningar eller villkorliga begränsningar som förklaras enligt följande.

Kom ihåg att en kant i ett träd är en oordnad uppsättning av två noder. Varje kant i en vinstock är associerad med en restriktionsuppsättning , som är uppsättningen av variabler (noder i första trädet) som kan nås av uppsättningsmedlemskapsrelationen. För varje kant är begränsningsuppsättningen föreningen av begränsningsuppsättningarna av kantens två medlemmar som kallas dess komponentbegränsningsuppsättningar (för en kant i det första trädet är komponentbegränsningsuppsättningarna tomma). Begränsningen som är associerad med varje kant är nu den symmetriska skillnaden mellan dess komponentbegränsningsuppsättningar beroende på skärningspunkten mellan dess begränsningsuppsättningar. Man kan visa att för en vanlig vinstock är den symmetriska skillnaden mellan komponentrestriktionsmängderna alltid en dubbelton och att varje par av variabler förekommer exakt en gång som begränsade variabler. Med andra ord är alla begränsningar bivariata eller villkorade bivariata.

Graden av en nod är antalet kanter som fäster till den. De enklaste vanliga vinstockarna har den enklaste gradstrukturen; D-Vine tilldelar varje nodgrad 1 eller 2, C-Vine tilldelar en nod i varje träd den maximala graden. För stora vinstockar är det tydligare att rita varje träd separat.

Antalet regelbundna vinstockar på n variabler växer snabbt i n : det finns 2 n −3 sätt att förlänga en vanlig vinstock med ytterligare en variabel, och det finns n ( n − 1)( n − 2)!2 ( n − 2 )( n − 3)/2 /2 märkta vanliga vinstockar på n variabler .

Begränsningarna på en vanlig vinstock kan vara förknippade med partiella korrelationer eller med villkorlig bivariat kopula . I det förra fallet talar vi om en partiell korrelation vinstockar och i det senare fallet om en vinranka copula .

Partiell korrelation vinstockar

Bedford och Cooke visar att all tilldelning av värden i det öppna intervallet (−1, 1) till kanterna i någon partiell korrelationsvinstock är konsekvent, tilldelningarna är algebraiskt oberoende och det finns en en-till-en-relation mellan alla sådana tilldelningar. och uppsättningen av korrelationsmatriser. Med andra ord ger partiella korrelationsvinstockar en algebraiskt oberoende parametrisering av uppsättningen av korrelationsmatriser, vars termer har en intuitiv tolkning. Dessutom är determinanten för korrelationsmatrisen produkten över kanterna av (1 − ρ 2 ik ; D ( ik ) ) där ρ ik ; D ( ik ) är den partiella korrelationen som tilldelas kanten med betingade variabler i , k och konditioneringsvariabler D ( ik ). En liknande sönderdelning kännetecknar den ömsesidiga informationen , som generaliserar bestämningsfaktorn för korrelationsmatrisen. Dessa funktioner har använts i begränsad sampling av korrelationsmatriser, byggande av icke-parametriska kontinuerliga Bayesianska nätverk och åtgärdat problemet med att utöka partiellt specificerade matriser till positiva bestämda matriser.

Vine copulas eller par-copula konstruktion

Under lämpliga differentiabilitetsförhållanden kan vilken multivariat densitet f 1... n n variabler som helst, med univariata densiteter f 1 ,..., f n , representeras i sluten form som en produkt av univariata densiteter och (villkorliga) kopuladensiteter på någon R-vine V

f 1...n = f 1 ... | e ) f n Π e∈E( V ) Ce1 ​​( Fe1 D ,e2 | D e | e2 D e , F

där kanterna e = (e 1 , e 2 ) med konditioneringsuppsättningen D e är i kantuppsättningen E( V ) för en vanlig vinstock V . De villkorliga kopulatätheterna C e 1 , e 2 |D e ​​i denna representation beror på de kumulativa villkorliga fördelningsfunktionerna för de betingade variablerna, Fe 1 | D e ​​, F e 2 |D e ​​, och, potentiellt, på värdena för konditioneringsvariablerna. När de villkorliga kopulerna inte är beroende av konditioneringsvariablernas värden talar man om det förenklade antagandet om konstanta betingade kopler. Även om de flesta applikationer åberopar detta antagande, har man börjat utforska modelleringsfriheten som uppnås genom att använda detta antagande. När bivariata Gaussiska copulas tilldelas kanterna på en vinstock, då är den resulterande multivariatdensiteten den Gaussiska densiteten parametriserad av en partiell korrelationsvinstock snarare än av en korrelationsmatris.

Konstruktionen av vinpar-kopula, baserad på sekventiell blandning av betingade fördelningar, har anpassats till diskreta variabler och blandad diskret/kontinuerlig respons. Även faktorkopula, där latenta variabler har lagts till vinstocken, har föreslagits (t.ex. ).

Vinforskare har utvecklat algoritmer för maximal sannolikhetsuppskattning och simulering av vinkopula, hitta trunkerade vinstockar som sammanfattar beroendet i data, uppräkning genom vinstockar, etc. Kapitel 6 i Beroendemodellering med Copulas sammanfattar dessa algoritmer i pseudokod.


Trunkerade vinkopula (introducerade av EC Brechmann i sin doktorsavhandling) är vinkopula som har självständighetskopula i de sista träden. På detta sätt kodar trunkerade vinkopula i sin struktur villkorliga oberoende. Trunkerade vinstockar är mycket användbara eftersom de innehåller mycket färre parametrar än vanliga vinstockar. En viktig fråga är vad som ska vara trädet på högsta nivå. Ett intressant förhållande mellan trunkerade vinstockar och körsbärsträdskopor presenteras i ( ) Körsbärsträdsgrafrepresentationer introducerades som ett alternativ för de vanliga grafiska representationerna av vinrankor, dessutom är de villkorliga oberoende som kodas av det sista trädet (första trädet efter trunkering) också framhävd här ( ) och i () Körsbärsträdets sekvensrepresentation av vinkopulan ger ett nytt sätt att se på trunkerade copulor, baserat på det villkorliga oberoende som orsakas av trunkering.

Parameteruppskattning

För parametriska vinkopula, med en bivariat copulafamilj på varje kant av en vinstock, finns algoritmer och programvara tillgängliga för maximal sannolikhetsuppskattning av copulaparametrar, förutsatt att data har omvandlats till enhetliga poäng efter att ha anpassat univariata marginaler. Det finns också tillgängliga algoritmer (t.ex. ) för att välja bra trunkerade regelbundna vinstockar där kanterna på högnivåträd tas som villkorligt oberoende. Dessa algoritmer tilldelar variabler med starkt beroende eller starkt villkorligt beroende till lågordningsträd så att träd av högre ordning har svagt villkorligt beroende eller villkorligt oberoende. Därför erhålls sparsamma trunkerade vinstockar för ett stort antal variabler. Programvara med användargränssnitt i R finns tillgänglig (t.ex. ).

Sampling och konditionalisering

En samplingsordning för n variabler är en sekvens av villkorliga densiteter där den första densiteten är ovillkorlig, och densiteterna för andra variabler är betingade av de föregående variablerna i ordningen. En provtagningsordning antyds av en regelbunden vinstocksrepresentation av densiteten om varje villkorad densitet kan skrivas som en produkt av kopuladensiteter i vinstocken och endimensionella marginaler.

En implicit samplingsordning genereras av en kapslad sekvens av subviner där varje sub-vine i sekvensen innehåller en ny variabel som inte finns i den föregående sub-vine. För alla vanliga vinstockar på n variabler finns det 2 n−1 implicita provtagningsordningar. Implicit samplingsorder är en liten delmängd av alla n! beställningar men de underlättar avsevärt provtagningen. Att villkora en vanlig vinstock på värden av en godtycklig delmängd av variabler är en komplex operation. Att villkora på en initial sekvens av en implicit samplingsordning är emellertid trivialt, man kopplar helt enkelt in de initiala villkorsvärdena och fortsätter med samplingen. Någon generell teori om villkoralisering existerar inte för närvarande.

Vidare läsning

  •   Kurowicka, D.; Joe, H., red. (2010). Dependence Modeling: Vine Copula Handbook . Singapore: World Scientific. s. 43–84. ISBN 978-981-4299-87-9 .

externa länkar