Uppskattning av kovariansmatriser

I statistik är ibland kovariansmatrisen för en multivariat slumpvariabel inte känd utan måste uppskattas . Uppskattning av kovariansmatriser behandlar sedan frågan om hur man approximerar den faktiska kovariansmatrisen på basis av ett urval från multivariatfördelningen . Enkla fall, där observationerna är fullständiga, kan hanteras med hjälp av provets kovariansmatris . Sampelkovariansmatrisen (SCM) är en opartisk och effektiv estimator av × p kovariansmatrisen om utrymmet av kovariansmatriser ses som en yttre konvex kon i Rp ; Men mätt med hjälp av den inneboende geometrin hos positiv-definita matriser är SCM en partisk och ineffektiv skattare. Dessutom, om den slumpmässiga variabeln har en normalfördelning , har provets kovariansmatris en Wishart-fördelning och en något annorlunda skalad version av den är den maximala sannolikhetsuppskattningen . Fall som involverar saknade data , heteroskedasticitet eller autokorrelerade residualer kräver djupare överväganden. En annan fråga är robustheten mot extremvärden , för vilka samvariansmatriser är mycket känsliga.

Statistiska analyser av multivariat data involverar ofta explorativa studier av hur variablerna förändras i förhållande till varandra och detta kan följas upp av explicita statistiska modeller som involverar variablernas kovariansmatris. Således spelar uppskattningen av kovariansmatriser direkt från observationsdata två roller:

  • att tillhandahålla initiala uppskattningar som kan användas för att studera de inbördes sambanden;
  • för att ge provuppskattningar som kan användas för modellkontroll.

Uppskattningar av kovariansmatriser krävs i de inledande stadierna av huvudkomponentanalys och faktoranalys , och är också involverade i versioner av regressionsanalys som behandlar de beroende variablerna i en datamängd, tillsammans med den oberoende variabeln som resultatet av ett slumpmässigt urval .

Uppskattning i ett allmänt sammanhang

Givet ett urval bestående av n oberoende observationer x 1 ,..., x n av en p -dimensionell slumpmässig vektor X R p ×1 (a p ×1 kolumnvektor), en opartisk skattare av ( p × p ) kovariansmatris

är provets kovariansmatris

där är den i -te observationen av den p -dimensionella slumpmässiga vektorn, och vektorn

är provmedelvärdet . Detta gäller oavsett fördelningen av stokastisk variabel X , givetvis förutsatt att de teoretiska medelvärdena och kovarianserna existerar. Orsaken till faktorn n − 1 snarare än n är i huvudsak densamma som orsaken till att samma faktor förekommer i opartiska skattningar av urvalsvarianser och urvalskovarianser , vilket relaterar till det faktum att medelvärdet inte är känt och ersätts av urvalet betyda (se Bessels rättelse ).

I de fall fördelningen av den slumpmässiga variabeln X är känd för att vara inom en viss familj av distributioner, kan andra uppskattningar härledas på basis av det antagandet. Ett välkänt exempel är när den slumpmässiga variabeln X är normalfördelad : i det här fallet skiljer sig den maximala sannolikhetsskattaren för kovariansmatrisen något från den opartiska skattningen, och ges av

En härledning av detta resultat ges nedan. Det är klart att skillnaden mellan den opartiska skattaren och den maximala sannolikhetsuppskattaren minskar för stort n .

I det allmänna fallet ger den opartiska uppskattningen av kovariansmatrisen en acceptabel uppskattning när datavektorerna i den observerade datamängden alla är kompletta: det vill säga att de inte innehåller några saknade element . Ett tillvägagångssätt för att uppskatta kovariansmatrisen är att behandla uppskattningen av varje varians eller parvis kovarians separat och att använda alla observationer för vilka båda variablerna har giltiga värden. Om man antar att de saknade data saknas slumpmässigt resulterar detta i en uppskattning för kovariansmatrisen som är opartisk. För många applikationer kanske denna uppskattning inte är acceptabel eftersom den uppskattade kovariansmatrisen inte garanteras vara positiv semidefinitiv. Detta kan leda till uppskattade korrelationer som har absoluta värden som är större än ett och/eller en icke-inverterbar kovariansmatris.

Vid uppskattning av korskovariansen för ett par signaler som är stationära med bred känsla behöver saknade sampel inte vara slumpmässiga (t.ex. är subsampling med en godtycklig faktor giltig). [ citat behövs ]

Maximal sannolikhetsuppskattning för den multivariata normalfördelningen

En slumpvektor X R p (a p ×1 "kolumnvektor") har en multivariat normalfördelning med en icke-singular kovariansmatris Σ exakt om Σ ∈ R p × p är en positiv-definitiv matris och sannolikhetstäthetsfunktionen för X är

där μ R p ×1 är det förväntade värdet X . Kovariansmatrisen Σ är den flerdimensionella analogen till vad som i en dimension skulle vara variansen , och

normaliserar densiteten så att den integreras till 1.

Antag nu att X 1 , ..., X n är oberoende och identiskt fördelade sampel från fördelningen ovan. Baserat på de observerade värdena x 1 , ..., x n i detta prov vill vi uppskatta Σ.

Första stegen

Sannolikhetsfunktionen är:

Det är ganska lätt att visa att den maximala sannolikhetsuppskattningen av medelvektorn μ är vektorn " provmedelvärde" :

Se avsnittet om uppskattning i artikeln om normalfördelningen för detaljer; processen här är liknande.

Eftersom uppskattningen inte beror på Σ, kan vi bara ersätta μ i sannolikhetsfunktionen ,

och sök sedan värdet på Σ som maximerar sannolikheten för data (i praktiken är det lättare att arbeta med log .

Spåret av en 1 × 1 matris

Nu kommer vi till det första överraskande steget: betrakta skalären som spåret av en 1×1 matris. Detta gör det möjligt att använda identiteten tr( AB ) = tr( BA ) närhelst A och B är matriser så formade att båda produkterna existerar. Vi får

var

kallas ibland för spridningsmatrisen , och är positiv definitivt om det finns en delmängd av data som består av affint oberoende observationer (vilket vi kommer att anta).

Med hjälp av spektralsatsen

Det följer av spektralsatsen för linjär algebra att en positiv-definitiv symmetrisk matris S har en unik positiv-definitiv symmetrisk kvadratrot S 1/2 . Vi kan återigen använda spårets "cykliska egenskap" för att skriva

Låt B = S 1/2 Σ −1 S 1/2 . Då blir uttrycket ovan

Den positiva-definita matrisen B kan diagonaliseras, och sedan problemet med att hitta värdet på B som maximerar

Eftersom spåret av en kvadratmatris är lika med summan av egenvärden ( "spår och egenvärden" ), reduceras ekvationen till problemet med att hitta egenvärdena λ 1 , ..., λ p som maximerar

Detta är bara ett kalkylproblem och vi får λ i = n för alla i. Antag alltså att Q är matrisen av egenvektorer

dvs n gånger p × p identitetsmatrisen.

Avslutande steg

Äntligen får vi

dvs p × p "sampel kovariansmatris"

är estimatorn för maximal sannolikhet för "populationskovariansmatrisen" Σ. Vid denna tidpunkt använder vi ett stort X snarare än ett litet x eftersom vi tänker på det "som en estimator snarare än som en uppskattning", dvs. som något slumpmässigt vars sannolikhetsfördelning vi skulle kunna tjäna på att veta. Slumpmatrisen S kan visas ha en Wishart-fördelning med n − 1 frihetsgrader. Det är:

Alternativ härledning

En alternativ härledning av skattaren för maximal sannolikhet kan utföras via matriskalkylformler (se även differential för en determinant och differential för den inversa matrisen ). Den verifierar också det tidigare nämnda faktumet om den maximala sannolikhetsuppskattningen av medelvärdet. Skriv om sannolikheten i loggformuläret med spårningstricket:

Skillnaden mellan denna log-sannolikhet är

Det delas naturligtvis upp i den del som är relaterad till uppskattningen av medelvärdet och till den del som är relaterad till uppskattningen av variansen. Första ordningens villkor för maximum, är uppfyllt när termerna multiplicerar och är identiskt noll. Om man antar (den maximala sannolikhetsuppskattningen av) är icke-singular, är första ordningens villkor för skattningen av medelvektorn

vilket leder till den maximala sannolikhetsskattaren

Detta låter oss förenkla

som definierats ovan. Då kan termerna som involverar i kombineras som

Första ordningens villkor kommer att gälla när termen inom hakparentesen är (matris- värderad) noll. Att förmultiplicera det senare med och dividera med ger

vilket givetvis sammanfaller med den kanoniska härledningen som tidigare givits.

Dwyer påpekar att nedbrytning i två termer som visas ovan är "onödig" och härleder estimatorn i två arbetslinjer. Observera att det kanske inte är trivialt att visa att en sådan härledd estimator är den unika globala maximeraren för sannolikhetsfunktion.

Inre kovariansmatrisuppskattning

Inneboende förväntningar

Givet ett urval av n oberoende observationer x 1 ,..., x n av en p -dimensionell noll-medelvärde Gaussisk stokastisk variabel X med kovarians R , ges den maximala sannolikhetsestimatorn för R av

Parametern tillhör uppsättningen av positiv-definita matriser , som är en Riemann-manifold , inte ett vektorrum , därav de vanliga vektor-rymdsföreställningarna om förväntan , dvs. " ", och estimatorbias måste generaliseras till mångfalder för att förstå problemet med kovariansmatrisuppskattning. Detta kan göras genom att definiera förväntan av en grenrörsvärderad estimator med avseende på den grenrörsvärdade punkten som

var

är den exponentiella kartan respektive den inversa exponentiella kartan, "exp" och "log" betecknar den ordinarie matrisexponential- och matrislogaritmen , och E[·] är den ordinarie förväntningsoperatorn definierad på ett vektorrum, i detta fall tangentrymden för grenröret.

Bias av provets kovariansmatris

Det inre förspänningsvektorfältet för SCM-estimatorn definieras som

Den inneboende estimatorbiasen ges sedan av .

För komplexa Gaussiska slumpvariabler kan detta förspänningsvektorfält visas vara lika

var

och ψ(·) är digammafunktionen . Den inneboende biasen för provets kovariansmatris är lika med

och SCM är asymptotiskt opartisk som n → ∞.

På liknande sätt beror den inneboende ineffektiviteten hos provets kovariansmatris på den Riemannska krökningen av utrymmet för positiv-definita matriser.

Uppskattning av krympning

Om urvalsstorleken n är liten och antalet betraktade variabler p är stort, är ovanstående empiriska skattare av kovarians och korrelation mycket instabila. Specifikt är det möjligt att tillhandahålla estimatorer som avsevärt förbättrar den maximala sannolikhetsuppskattningen i termer av medelkvadratfel. Dessutom, för n < p (antalet observationer är mindre än antalet slumpvariabler) blir den empiriska uppskattningen av kovariansmatrisen singular , dvs den kan inte inverteras för att beräkna precisionsmatrisen .

Som ett alternativ har många metoder föreslagits för att förbättra uppskattningen av kovariansmatrisen. Alla dessa tillvägagångssätt bygger på begreppet krympning. Detta är implicit i Bayesianska metoder och i straffade metoder för maximal sannolikhet och explicit i krympningsmetoden av Stein-typ .

En enkel version av en krympningsuppskattare av kovariansmatrisen representeras av Ledoit-Wolfs krympningsuppskattning. Man betraktar en konvex kombination av den empiriska estimatorn ( ) med något lämpligt valt mål ( ), t.ex. den diagonala matrisen. Därefter väljs blandningsparametern ( Detta kan göras genom korsvalidering eller genom att använda en analytisk uppskattning av krympningsintensiteten. Den resulterande regulariserade estimatorn ( kan visas överträffa den maximala sannolikhetsestimatorn för små prover. För stora prover kommer krympningsintensiteten att minska till noll, så i detta fall kommer krympningsuppskattaren att vara identisk med den empiriska skattaren. Förutom ökad effektivitet har krympningsuppskattningen den ytterligare fördelen att den alltid är positiv och väl konditionerad.

Olika krympmål har föreslagits:

  1. identitetsmatrisen , skalad med den genomsnittliga urvalsvariansen ;
  2. enkelindexmodellen ; _
  3. konstantkorrelationsmodellen, där urvalsvarianserna bevaras, men alla parvisa korrelationskoefficienter antas vara lika med varandra;
  4. matrisen med två parametrar, där alla varianser är identiska och alla kovarianser är identiska med varandra (även om de inte är identiska med varianserna);
  5. den diagonala matrisen innehåller provvarianser på diagonalen och nollor överallt annars;
  6. identitetsmatrisen . _

Krympningsuppskattaren kan generaliseras till en flermålskrympningsuppskattare som använder flera mål samtidigt. Mjukvara för att beräkna en kovarianskrympningsuppskattare finns i R (paket corpcor och ShrinkCovMat ), i Python ( scikit-learn- bibliotek [1] ) och i MATLAB .

Se även

  1. ^ a b c   Smith, Steven Thomas (maj 2005). "Kovarians, underrum och inneboende Cramér-Rao-gränser" . IEEE Trans. Signalprocess . 53 (5): 1610–1630. doi : 10.1109/TSP.2005.845428 . S2CID 2751194 .
  2. ^ Robust Statistics , Peter J. Huber , Wiley, 1981 (ompublicerad i pocketbok, 2004)
  3. ^     "Modern tillämpad statistik med S", William N. Venables, Brian D. Ripley , Springer, 2002, ISBN 0-387-95457-0 , ISBN 978-0-387-95457-8 , sida 336
  4. ^ Devlin, Susan J. ; Gnanadesikan, R.; Kettenring, JR (1975). "Robust uppskattning och avvikande detektering med korrelationskoefficienter". Biometrika . 62 (3): 531–545. doi : 10.1093/biomet/62.3.531 .
  5. ^ KV Mardia , JT Kent och JM Bibby (1979) Multivariate Analysis , Academic Press .
  6. ^   Dwyer, Paul S. (juni 1967). "Några tillämpningar av matrisderivat i multivariat analys". Journal of the American Statistical Association . 62 (318): 607–625. doi : 10.2307/2283988 . JSTOR 2283988 .
  7. ^ O. Ledoit och M. Wolf (2004a) " En välkonditionerad estimator för stordimensionella kovariansmatriser Arkiverad 2014-12-05 på Wayback Machine " Journal of Multivariate Analysis 88 (2): 365—411.
  8. ^ a b A. Touloumis (2015) " Ickeparametriska Stein-typ krympningskovariansmatrisestimatorer i högdimensionella inställningar" Computational Statistics & Data Analysis 83 : 251—261.
  9. ^ O. Ledoit och M. Wolf (2003) " Förbättrad uppskattning av kovariansmatrisen för aktieavkastning med en applikation för portofolval Arkiverad 2014-12-05 Wayback Machine" Journal of Empirical Finance 10 (5): 603—621 .
  10. ^ O. Ledoit och M. Wolf (2004b) " Älskling, jag krympte provets kovariansmatris Arkiverad 2014-12-05 på Wayback Machine " The Journal of Portfolio Management 30 (4): 110—119.
  11. ^ T. Lancewicki och M. Aladjem (2014) " Multimålskrympningsuppskattning för kovariansmatriser ", IEEE-transaktioner på signalbehandling , volym: 62, nummer 24, sidor: 6380-6390.
  12. ^ Corpor: Effektiv uppskattning av kovarians och (partiell) korrelation , CRAN
  13. ^ ShrinkCovMat: Uppskattare av krympsamvariansmatris , CRAN
  14. ^ MATLAB-kod för krympningsmål: skalad identitet , enkelindexmodell , konstantkorrelationsmodell , tvåparametermatris och diagonalmatris .