Skivad omvänd regression
Sliced invers regression (eller SIR) är ett verktyg för dimensionalitetsreduktion inom området multivariat statistik .
Inom statistik är regressionsanalys en metod för att studera sambandet mellan en svarsvariabel y och dess indatavariabel \ som är en p -dimensionell vektor. Det finns flera tillvägagångssätt inom kategorin regression. Till exempel inkluderar parametriska metoder multipel linjär regression, och icke-parametriska metoder inkluderar lokal utjämning.
Eftersom antalet observationer som behövs för att använda lokala utjämningsmetoder skalas exponentiellt med högdimensionella data (i takt med att p växer), kan en minskning av antalet dimensioner göra operationen beräkningsbar. Dimensionalitetsreduktion syftar till att uppnå detta genom att endast visa den viktigaste dimensionen av datan. SIR använder den inversa regressionskurvan, för att utföra en viktad huvudkomponentanalys.
Modell
Givet en svarsvariabel och en (slumpmässig) vektor av förklarande variabler, är SIR baserad på modellen
där är okända projektionsvektorer, är ett okänt tal mindre än , är en okänd funktion på eftersom den bara beror på argument, och är en slumpvariabel som representerar fel med och en ändlig varians på . Modellen beskriver en ideal lösning, där beror på endast genom en dimensionell delutrymme; dvs man kan reducera dimensionen av förklaringsvariablerna från till ett mindre antal utan att förlora någon information.
En ekvivalent version av är: den villkorliga fördelningen av givet endast på genom den dimensionella slumpmässiga vektorn . Det antas att denna reducerade vektor är lika informativ som den ursprungliga för att förklara .
De okända kallas de effektiva dimensionsreducerande riktningarna (EDR-riktningar). Det utrymme som sträcks över av dessa vektorer betecknas med det effektiva dimensionsreducerande utrymmet ( EDR-rymden).
Relevant linjär algebrabakgrund
Givet , sedan kallas mängden av alla linjära kombinationer av dessa vektorer ett linjärt delrum och är därför ett vektorrum. Ekvationen säger att vektorerna över , men vektorerna som spänner över rymden är inte unika.
Dimensionen för är lika med det maximala antalet linjärt oberoende vektorer i . En uppsättning av linjära oberoende vektorer av utgör en bas för . Dimensionen av ett vektorrum är unik, men själva basen är det inte. Flera baser kan spänna över samma utrymme. Beroende vektorer kan fortfarande sträcka sig över ett mellanslag, men de linjära kombinationerna av de senare är endast lämpliga för en uppsättning vektorer som ligger på en rät linje.
Omvänd regression
Att beräkna den omvända regressionskurvan (IR) innebär istället för att leta efter
- , vilket är en kurva i
det är det faktiskt
- som också är en kurva i men som består av endimensionella regressioner.
Mitten av den omvända regressionskurvan ligger vid . Därför är den centrerade inversa regressionskurvan
som är en dimensionskurva i .
Invers regression kontra dimensionsreduktion
Den centrerade inversa regressionskurvan ligger på ett -dimensionellt delrum som sträcks av . Detta är ett samband mellan modellen och omvänd regression.
Givet detta villkor och , den centrerade inversa regressionskurvan finns i det linjära delutrymmet som spänns av Σ .
Uppskattning av EDR-riktningarna
Efter att ha tittat på alla teoretiska egenskaper är målet nu att uppskatta EDR-riktningarna. För det ändamålet behövs viktade huvudkomponentanalyser. Om provet betyder skulle ha standardiserats till . Motsvarande satsen ovan är IR-kurvan ligger i utrymmet som spänns av , där . Som en konsekvens, kovariansmatrisen är degenererad i valfri riktning vinkelrät mot . Därför är egenvektorerna associerade med de största egenvärdena är de standardiserade EDR-riktningarna.
Algoritm
Algoritmen för att uppskatta EDR-riktningarna via SIR är som följer.
1. Låt vara kovariansmatrisen för . Standardisera till
( kan också skrivas om som
där .)
2. Dela upp området för i icke-överlappande skivor antalet observationer inom varje segment och är indikatorfunktionen för skivan:
3. Beräkna medelvärdet av över alla skivor, vilket är en grov uppskattning av inversen regressionskurva :
4. Beräkna uppskattningen för :
5. Identifiera egenvärdena och egenvektorerna av , som är de standardiserade EDR-riktningarna.
6. Förvandla de standardiserade EDR-riktningarna tillbaka till den ursprungliga skalan. Uppskattningarna för EDR-riktningarna ges av:
(som inte nödvändigtvis är ortogonala)
- Li, KC. (1991) "Sliced Inverse Regression for Dimension Reduction", Journal of the American Statistical Association , 86, 316–327 Jstor
- Cook, RD och Sanford Weisberg, S. (1991) "Sliced Inverse Regression for Dimension Reduction: Comment", Journal of the American Statistical Association , 86, 328–332 Jstor
- Härdle, W. och Simar, L. (2003) Applied Multivariate Statistical Analysis , Springer Verlag. ISBN 3-540-03079-4
- Kurzfassung zur Vorlesung Mathematik II im Sommersemester 2005, A. Brandt