Gles PCA
Sparse principal component analysis ( sparse PCA ) är en specialiserad teknik som används vid statistisk analys och i synnerhet vid analys av multivariata datamängder. Den utökar den klassiska metoden för principal component analysis (PCA) för att reducera dimensionalitet av data genom att introducera sparsitetsstrukturer i indatavariablerna.
En speciell nackdel med vanlig PCA är att huvudkomponenterna vanligtvis är linjära kombinationer av alla indatavariabler. Sparse PCA övervinner denna nackdel genom att hitta linjära kombinationer som innehåller bara ett fåtal indatavariabler.
Samtida datamängder har ofta antalet indatavariabler ( ) jämförbart med eller till och med mycket större än antalet sampel ( ). Det har visat sig att om inte konvergerar till noll, är den klassiska PCA inte konsekvent . Men sparsam PCA kan behålla konsistensen även om
Matematisk formulering
Betrakta en datamatris , X , där var och en av -kolumnerna representerar en indatavariabel, och var och en av de -raderna representerar ett oberoende urval från datapopulationen. Man antar att varje kolumn i har medelvärdet noll, annars kan man subtrahera kolumnvis medelvärde från varje element i . Låt vara den empiriska kovariansmatrisen för , som har dimensionen . Givet ett heltal med , kan det glesa PCA-problemet formuleras som att maximera variansen längs en riktning som representeras av vektorn samtidigt som man begränsar dess kardinalitet:
Den första begränsningen specificerar att v är en enhetsvektor. I den andra begränsningen representerar pseudonormen för v , som definieras som talet av dess icke-nollkomponenter. Så den andra begränsningen specificerar att antalet komponenter som inte är noll i v är mindre än eller lika med k , vilket vanligtvis är ett heltal som är mycket mindre än dimensionen p . Det optimala värdet av ekv. 1 är känt som det k -glesa största egenvärdet .
Om man tar k=p minskar problemet till den vanliga PCA och det optimala värdet blir det största egenvärdet för kovariansmatrisen Σ .
Efter att ha hittat den optimala lösningen v tömmer man Σ för att få en ny matris
och upprepa denna process för att erhålla ytterligare huvudkomponenter. Men till skillnad från PCA kan sparse PCA inte garantera att olika huvudkomponenter är ortogonala . För att uppnå ortogonalitet måste ytterligare begränsningar upprätthållas.
Följande ekvivalenta definition är i matrisform. Låt vara en p×p symmetrisk matris, man kan skriva om det glesa PCA-problemet som
Tr är matrisspåret och representerar elementen som inte är noll i matrisen V . Den sista raden anger att V har matrisrang 1 och är positiv semidefinit . Den sista raden betyder att man har , så Ekv. 2 är ekvivalent med ekv. 1 .
Dessutom är rangbegränsningen i denna formulering faktiskt överflödig, och därför kan gles PCA gjutas som följande blandade heltals semidefinite program
På grund av kardinalitetsbegränsningen är maximeringsproblemet svårt att lösa exakt, speciellt när dimensionen p är hög. Faktum är att det glesa PCA-problemet i Eq. 1 är NP-hård i stark mening.
Algoritmer för sparsam PCA
Flera alternativa tillvägagångssätt (av ekv. 1 ) har föreslagits, inklusive
- ett regressionsramverk,
- en peneliserad matrisnedbrytningsram,
- en konvex avslappning/halvdefinierad programmeringsram,
- ett generaliserat ramverk för maktmetoder
- en alternerande maximeringsram
- framåt-bakåt girig sökning och exakta metoder med gren-och-bindningstekniker,
- ett certifierat optimalt gren-och-bundet tillvägagångssätt
- Bayesiansk formuleringsram.
- Ett certifierat optimalt blandat heltals semidefinite gren-och-klipp-metoden
Den metodologiska och teoretiska utvecklingen av Sparse PCA såväl som dess tillämpningar i vetenskapliga studier har nyligen granskats i en enkätrapport.
Anmärkningar om Semidefinite Programmering Relaxation
Det har föreslagits att sparsam PCA kan approximeras genom semidefinite programmering (SDP). Om man tappar rangbegränsningen och slappnar av kardinalitetsbegränsningen med en 1-norm konvex begränsning, får man en semidefinitiv programmeringsrelaxation, som kan lösas effektivt i polynomtid:
I den andra begränsningen är en p×1 vektor av ettor, och |V| är matrisen vars element är absolutvärdena för elementen i V .
Den optimala lösningen på det avslappnade problemet Ekv. 3 är inte garanterat att ha plats ett. I så fall trunkeras för att bara behålla den dominanta egenvektorn.
Även om det semidefinita programmet inte skalar över n=300 kovariater, har det visat sig att en andra ordningens konrelaxation av den semidefinita relaxationen är nästan lika snäv och framgångsrikt löser problem med n=1000s av kovariater
Ansökningar
Finansiell dataanalys
Anta att vanlig PCA tillämpas på en datauppsättning där varje indatavariabel representerar en annan tillgång, kan den generera huvudkomponenter som är en viktad kombination av alla tillgångar. Däremot skulle sparsam PCA producera huvudkomponenter som är viktade kombinationer av endast ett fåtal ingående tillgångar, så man kan enkelt tolka dess innebörd. Dessutom, om man använder en handelsstrategi baserad på dessa huvudkomponenter, innebär färre tillgångar mindre transaktionskostnader.
Biologi
Betrakta ett dataset där varje indatavariabel motsvarar en specifik gen. Gles PCA kan producera en huvudkomponent som bara involverar ett fåtal gener, så forskare kan fokusera på dessa specifika gener för vidare analys.
Högdimensionell hypotestestning
Samtida datamängder har ofta antalet indatavariabler ( ) jämförbart med eller till och med mycket större än antalet sampel ( ). Det har visat sig att om inte konvergerar till noll, är den klassiska PCA inte konsekvent . Med andra ord, om vi låter i ekv. 1 , då konvergerar inte det optimala värdet till det största egenvärdet för datapopulationen när urvalsstorleken , och den optimala lösningen inte konvergerar till riktningen för maximal varians. Men sparsam PCA kan behålla konsistensen även om
Det k -glesa största egenvärdet (det optimala värdet av ekv. 1 ) kan användas för att skilja en isometrisk modell, där varje riktning har samma varians, från en spikad kovariansmodell i högdimensionell miljö. Betrakta ett hypotestest där nollhypotesen anger att data genereras från en multivariat normalfördelning med medelvärde 0 och kovarians lika med en identitetsmatris, och den alternativa hypotesen anger att data genereras från en spetsad modell med signalstyrka :
där endast har k koordinater som inte är noll. Det största k -glesa egenvärdet kan särskilja de två hypoteserna om och endast om .
Eftersom beräkning av k -glesa egenvärde är NP-hård, kan man approximera det med det optimala värdet av semidefinite programmeringsrelaxation ( Ekv. 3 ). I så fall kan vi särskilja de två hypoteserna om . Den ytterligare termen kan inte förbättras med någon annan polynomisk tidsalgoritm om den planterade klickförmodan håller.
Programvara/källkod
- amanpg - R-paket för sparsam PCA med användning av den alternerande grenrörets proximala gradientmetoden
- elasticnet – R-paket för Sparse Estimation och Sparse PCA med Elastic-Nets
- nsprcomp - R-paket för sparsam och/eller icke-negativ PCA baserat på tröskelvärde effekt iterationer
- scikit-learn – Python-bibliotek för maskininlärning som innehåller Sparse PCA och andra tekniker i nedbrytningsmodulen.
- ^ a b Iain M Johnstone; Arthur Yu Lu (2009). "Om konsekvens och sparsamhet för analys av huvudkomponenter i höga dimensioner" . Journal of the American Statistical Association . 104 (486): 682–693. doi : 10.1198/jasa.2009.0121 . PMC 2898454 . PMID 20617121 .
- ^ a b Dimitris Bertsimas; Ryan Cory-Wright; Jean Pauphilet (2020). "Lösa storskalig sparsam PCA till certifierbar (nära) optimalitet". arXiv : 2005.05195 [ math.OC ].
- ^ Andreas M. Tillmann; Marc E. Pfetsch (2013). "Beräkningskomplexiteten för den begränsade isometriska egenskapen, nullspace-egenskapen och relaterade begrepp i komprimerad avkänning". IEEE-transaktioner på informationsteori . 60 (2): 1248–1259. arXiv : 1205.2081 . CiteSeerX 10.1.1.760.2559 . doi : 10.1109/TIT.2013.2290112 . S2CID 2788088 .
- ^ Hui Zou; Trevor Hastie; Robert Tibshirani (2006). "Gles huvudkomponentanalys" (PDF) . Journal of Computational and Graphical Statistics . 15 (2): 262–286. CiteSeerX 10.1.1.62.580 . doi : 10.1198/106186006x113430 . S2CID 5730904 .
- ^ Fläkta Chen; Karl Rohe (2021). "En ny grund för gles huvudkomponentanalys". arXiv : 2007.00596 [ stat.ML ].
- ^ a b Alexandre d'Aspremont; Laurent El Ghaoui; Michael I. Jordan; Gert RG Lanckriet (2007). "En direkt formulering för sparsam PCA som använder semidefinite programmering" ( PDF) . SIAM recension . 49 (3): 434–448. arXiv : cs/0406021 . doi : 10.1137/050645506 . S2CID 5490061 .
- ^ Michel Journee; Yurii Nesterov; Peter Richtarik; Rodolphe Sepulcher (2010). "Generaliserad effektmetod för gles huvudkomponentanalys" (PDF) . Journal of Machine Learning Research . 11 : 517-553. arXiv : 0811.4724 . Bibcode : 2008arXiv0811.4724J . CORE Diskussionspapper 2008/70.
- ^ Peter Richtarik; Majid Jahani; S. Damla Ahipasaoglu; Martin Takac (2021). "Alternativ maximering: Enande ramverk för 8 glesa PCA-formuleringar och effektiva parallella koder" . Optimering och teknik . 22 (3): 1493–1519. arXiv : 1212.4137 . doi : 10.1007/s11081-020-09562-3 . S2CID 2549610 .
- ^ Baback Moghaddam; Yair Weiss; Shai Avidan (2005). "Spectral Bounds for Sparse PCA: Exact and Greedy Algorithms" (PDF) . Framsteg inom neurala informationsbehandlingssystem . Vol. 18. MIT Press.
- ^ Lauren Berk; Dimitris Bertsimas (2019). "Certifierbart optimal gles huvudkomponentanalys". Matematisk programmeringsberäkning . Springer. 11 (3): 381–420. doi : 10.1007/s12532-018-0153-6 . hdl : 1721.1/131566 . S2CID 126998398 .
- ^ Yue Guan; Jennifer Dy (2009). "Gles probabilistisk huvudkomponentanalys" (PDF) . Journal of Machine Learning Research Workshop och konferenshandlingar . 5 :185.
- ^ Hui Zou; Lingzhou Xue (2018). "En selektiv översikt av sparsam huvudkomponentanalys" . IEEE:s förfaranden . 106 (8): 1311–1320. doi : 10.1109/jproc.2018.2846588 .
- ^ Dimitris Bertsimas; Ryan Cory-Wright (2020). "Om polyedriska och andra ordningens konupplösningar av semidefinita optimeringsproblem" . Operations Research Letters . Elsevier. 48 (1): 78–85. arXiv : 1910.03143 . doi : 10.1016/j.orl.2019.12.003 .
- ^ Quentin Berthet; Philippe Rigollet (2013). "Optimal upptäckt av glesa huvudkomponenter i hög dimension". Annals of Statistics . 41 (1): 1780–1815. arXiv : 1202.5070 . doi : 10.1214/13-aos1127 . S2CID 7162068 .
- ^ [1] https://cran.r-project.org/web/packages/amanpg/index.html
- ^ [2] https://cran.r-project.org/web/packages/elasticnet/elasticnet.pdf
- ^ [3] https://cran.r-project.org/package=nsprcomp
- ^ [4] http://scikit-learn.org/stable/modules/generated/sklearn.decomposition.SparsePCA.html