Matriskomplettering
Matriskomplettering är uppgiften att fylla i de saknade posterna i en delvis observerad matris, vilket motsvarar att utföra dataimputation i statistik. Ett brett utbud av datauppsättningar är naturligt organiserade i matrisform. Ett exempel är filmvärderingsmatrisen, som visas i Netflix-problemet : Givet en betygsmatris där varje post representerar betyget för filmen av kund , om kund har sett film och annars saknas, vill vi förutsäga återstående poster för att ge bra rekommendationer till kunder om vad de ska se Nästa. Ett annat exempel är dokumenttermmatrisen : Frekvenserna av ord som används i en samling dokument kan representeras som en matris, där varje post motsvarar antalet gånger den associerade termen förekommer i det angivna dokumentet.
Utan några restriktioner på antalet frihetsgrader i den färdiga matrisen är detta problem underbestämt eftersom de dolda posterna kan tilldelas godtyckliga värden. Därför kräver vi några antaganden om matrisen för att skapa ett väl ställt problem , som att anta att det har maximal determinant, är positivt definitivt eller är lågt rangordnat.
Till exempel kan man anta att matrisen har en struktur med låg rangordning, och sedan försöka hitta den lägsta rangmatrisen eller, om rangordningen för den färdiga matrisen är känd, en matris med rang som matchar de kända posterna . Illustrationen visar att en delvis avslöjad rank-1-matris (till vänster) kan kompletteras med nollfel (till höger) eftersom alla rader med saknade poster bör vara samma som den tredje raden. När det gäller Netflix-problemet förväntas betygsmatrisen vara låg, eftersom användarpreferenser ofta kan beskrivas av ett par faktorer, såsom filmgenre och tidpunkt för släpp. Andra applikationer inkluderar datorseende, där saknade pixlar i bilder måste rekonstrueras, detektering av den globala positioneringen av sensorer i ett nätverk från partiell distansinformation och lärande i flera klasser . Matriskompletteringsproblemet är i allmänhet NP-hårt , men under ytterligare antaganden finns det effektiva algoritmer som uppnår exakt rekonstruktion med hög sannolikhet.
I statistisk inlärningssynpunkt är matriskompletteringsproblemet en tillämpning av matrisregularisering som är en generalisering av vektorregularisering . Till exempel, i problemet med att slutföra matrisen med låg rang kan man tillämpa regulariseringsstraffet i form av en kärnkraftsnorm
Färdigställande av matris med låg rangordning
En av varianterna av matriskompletteringsproblemet är att hitta den lägsta rankningsmatrisen som matchar matrisen i uppsättningen av observerade poster. Den matematiska formuleringen av detta problem är följande:
Candès och Recht bevisade att med antaganden om urvalet av de observerade posterna och tillräckligt många urvalsposter har detta problem en unik lösning med hög sannolikhet.
En ekvivalent formulering, givet att matrisen som ska återställas är känd för att ha rang , är att lösa för där
Antaganden
Ett antal antaganden om urvalet av de observerade posterna och antalet provtagna poster görs ofta för att förenkla analysen och för att säkerställa att problemet inte är underbestämt .
Enhetligt urval av observerade poster
För att göra analysen genomförbar antas det ofta att uppsättningen av observerade poster och fast kardinalitet samplas likformigt slumpmässigt från samlingen av alla delmängder av poster av kardinalitet . För att ytterligare förenkla analysen antas istället att är konstruerad av Bernoulli sampling , dvs att varje post observeras med sannolikhet . Om är satt till där är den önskade förväntade kardinaliteten av och är matrisens dimensioner (låt utan förlust av generalitet), ligger inom av med hög sannolikhet, så Bernoulli-sampling är en bra approximation för enhetlig sampling. En annan förenkling är att anta att ingångarna provas oberoende och med ersättning.
Nedre gräns för antal observerade poster
Antag att av -matrisen (med ) vi försöker återställa har rang . Det finns en informationsteoretisk nedre gräns för hur många poster som måste observeras innan kan rekonstrueras unikt. Mängden med matriser med rangordning mindre än eller lika med är en algebraisk variant i med dimension . Med detta resultat kan man visa att minst -poster måste observeras för matriskomplettering i för att få en unik lösning när .
För det andra måste det finnas minst en observerad post per rad och kolumn i . Singularvärdesuppdelningen av ges av } . Om rad inte observeras är det lätt att se den höger singularvektorn för v , kan ändras till något godtyckligt värde och fortfarande ge en matris som matchar över uppsättningen av observerade poster. På liknande sätt, om kolumn inte observeras, den vänstersingularvektorn för , kan vara godtycklig. Om vi antar Bernoulli-sampling av uppsättningen observerade poster, kupongsamlareffekten att poster i storleksordningen måste observeras för att säkerställa att det finns en observation från varje rad och kolumn med hög sannolikhet.
Genom att kombinera de nödvändiga villkoren och anta att (ett giltigt antagande för många praktiska tillämpningar), den nedre gränsen för antalet observerade poster som krävs för att förhindra problemet med matriskomplettering från att vara underbestämd är i storleksordningen .
Brist på sammanhang
Begreppet inkoherens uppstod i komprimerad avkänning . Det introduceras i samband med matriskomplettering för att säkerställa att singularvektorerna för inte är för "glesa" i den meningen att alla koordinater för varje singularvektor är av jämförbar storlek istället för att bara några få koordinater har betydligt större magnituder. Standardbasvektorerna är då oönskade som singulära vektorer, och vektorn i är önskvärt. Som ett exempel på vad som kan gå fel om singularvektorerna är tillräckligt "glesa", betrakta med -matrisen med singularisvärdesuppdelning . Nästan alla poster i måste samplas innan den kan rekonstrueras.
Candès och Recht definierar koherensen av en matris med kolumnutrymme och dimensionellt delrum av som , där är den ortogonala projektionen på . Inkoherens hävdar sedan att givet singularvärdesuppdelningen av med -matrisen ,
- Inmatningarna för magnituder övre gränsad av
för några .
Matriskomplettering med låg rankning med brus
I verkliga tillämpningar observerar man ofta bara ett fåtal poster skadade åtminstone av en liten mängd brus. Till exempel i Netflix-problemet är betygen osäkra. Candès och Plan visade att det är möjligt att fylla i de många saknade posterna i stora lågrankade matriser från bara några bullriga prover genom att minimera kärnnormerna. Den bullriga modellen förutsätter att vi observerar
där är en brusterm. Observera att bruset kan vara antingen stokastiskt eller deterministiskt. Alternativt kan modellen uttryckas som
där är en matris med poster för om man antar att för vissa .För att återställa den ofullständiga matrisen försöker vi lösa följande optimeringsproblem:
Bland alla matriser som överensstämmer med data, hitta den med lägsta kärnkraftsnorm. Candès och Plan har visat att denna rekonstruktion är korrekt. De har bevisat att när perfekt ljudlös återhämtning inträffar, då är matriskomplettering stabil gentemot störningar. Felet är proportionellt mot brusnivån . Därför, när brusnivån är liten, är felet litet. Här följer inte matriskompletteringsproblemet den begränsade isometriska egenskapen (RIP). För matriser skulle RIP anta att provtagningsoperatören lyder
för alla matriser med tillräckligt liten rang och tillräckligt liten. Metoderna är också tillämpliga på glesa signalåterställningsproblem där RIP inte håller.
Fullbordat matris med hög rang
Den höga matriskompletteringen i allmänhet är NP-Hard . Med vissa antaganden kan dock en ofullständig matris med hög rang eller till och med full rangmatris slutföras.
Eriksson, Balzano och Nowak har övervägt problemet med att komplettera en matris med antagandet att matrisens kolumner tillhör en förening av flera lågrankade delrum. Eftersom kolumnerna tillhör en förening av delutrymmen, kan problemet ses som en version med saknade data av klustringsproblemet för underutrymmet . Låt vara en matris vars (fullständiga) kolumner ligger i en union av högst underrymden, var och en av , och antag . Eriksson, Balzano och Nowak visade att under milda antaganden kan varje kolumn i perfekt återställas med hög sannolikhet från en ofullständig version så länge som minst inmatningar av observeras slumpmässigt enhetligt, med en konstant beroende på de vanliga inkoherensförhållandena, det geometriska arrangemanget av delrum och fördelning av kolumner över delutrymmena.
Algoritmen innefattar flera steg: (1) lokala stadsdelar; (2) lokala delrum; (3) förfining av delrum; (4) komplett matris. Denna metod kan appliceras på internetdistansmatriskomplettering och topologiidentifiering.
Algoritmer för komplettering av matris med låg rang
Olika matriskompletterande algoritmer har föreslagits. Dessa inkluderar konvex avslappningsbaserad algoritm, gradientbaserad algoritm och alternerande minimeringsbaserad algoritm.
Konvex avslappning
Rangminimeringsproblemet är NP-hårt . Ett tillvägagångssätt, som föreslagits av Candès och Recht, är att skapa en konvex relaxation av problemet och minimera kärnnormen ‖ som ger summan av singularvärdena för ) istället för (som räknar antalet singularvärden som inte är noll för ). Detta är analogt med att minimera L1- normen snarare än L0- normen för vektorer. Den konvexa relaxationen kan lösas med semidefinite programmering (SDP) genom att notera att optimeringsproblemet är likvärdigt med
Komplexiteten i att använda SDP för att lösa den konvexa relaxationen är . Toppmoderna lösare som SDPT3 kan bara hantera matriser med storlek upp till 100 gånger 100. En alternativ första ordningens metod som ungefär löser den konvexa avslappningen är Singular Value Thresholding Algorithm introducerad av Cai, Candès och Shen.
Candès och Recht visar, med hjälp av studien av slumpvariabler på Banach-utrymmen , att om antalet observerade poster är i storleksordningen (antag utan förlust av generalitet ), rangminimeringsproblemet har en unik lösning som också råkar vara lösningen på dess konvexa relaxation med sannolikhet för någon konstant . Om rangordningen för är liten ( storleken på uppsättning observationer reduceras till storleksordningen . Dessa resultat är nära optimala, eftersom det minsta antalet poster som måste observeras för att matriskompletteringsproblemet inte ska vara underbestämt är i storleksordningen .
Detta resultat har förbättrats av Candès och Tao. De uppnår gränser som skiljer sig från de optimala gränserna endast genom polylogaritmiska faktorer genom att stärka antagandena. Istället för inkoherensegenskapen antar de den starka inkoherensegenskapen med parametern . Denna egenskap säger att:
- för och för
- Posterna för begränsas i storlek av
Intuitivt hävdar stark inkoherens av en matris att de ortogonala projektionerna av standardbasvektorer till har magnituder som har hög sannolikhet om de singulära vektorerna fördelades slumpmässigt.
Candès och Tao finner att när är och antalet observerade poster är i storleksordningen , rangminimeringsproblemet har en unik lösning som också råkar vara lösningen på dess konvexa relaxation med sannolikhet för någon konstant . För godtycklig antalet observerade poster som är tillräckligt för att detta påstående är sant i storleksordningen
En annan konvex avslappningsmetod är att minimera Frobenius-kvadratnormen under en rangbegränsning. Detta motsvarar att lösa
Genom att introducera en ortogonal projektionsmatris (vilket betyder ) för att modellera rangordningen för via och med detta problems konvexa relaxation får vi följande semidefinita program
Om Y är en projektionsmatris (dvs. har binära egenvärden) i denna relaxation, då är relaxationen tät. Annars ger det en giltig nedre gräns för det övergripande målet. Dessutom kan den omvandlas till en genomförbar lösning med ett (något) större mål genom att girigt avrunda egenvärdena för Y. Anmärkningsvärt nog kan denna konvexa avslappning lösas genom alternerande minimering på X och Y utan att lösa några SDP:er, och därmed skalar den bortom de typiska numeriska gränserna för toppmoderna SDP-lösare som SDPT3 eller Mosek.
Detta tillvägagångssätt är ett specialfall av en mer allmän omformuleringsteknik, som kan tillämpas för att erhålla en giltig nedre gräns för alla lågrankade problem med ett spår-matris-konvext mål.
Gradient nedstigning
Keshavan, Montanari och Oh överväger en variant av matriskomplettering där rangordningen av m med matris som ska återställas, är känd för att vara . De antar Bernoulli-sampling av poster, konstant bildförhållande gränsad storlek på poster av (låt den övre gränsen vara ), och konstant tillståndstal (där och är de största och minsta singularvärdena för ). Vidare antar de att de två inkoherensvillkoren är uppfyllda med och där och är konstanter. Låt vara en matris som matchar på uppsättningen av observerade poster och är 0 någon annanstans. De föreslår sedan följande algoritm:
- Trimma genom att ta bort alla observationer från kolumner med grad större än genom att ställa in posterna i kolumnerna till 0. Ta på liknande sätt bort alla observationer från rader med grad större än .
- Projektera på dess första huvudkomponenter . Kalla den resulterande matrisen .
- Lös där är någon regulariseringsfunktion av gradient nedstigning med linjesökning . Initiera vid där . Ställ in som en funktion som tvingar att förbli osammanhängande under hela gradientnedgången om och är osammanhängande.
- Returnera matrisen .
Steg 1 och 2 i algoritmen ger en matris mycket nära den sanna matrisen (uppmätt med root mean square error (RMSE) ) med hög sannolikhet. I synnerhet med sannolikhet , displaystyle . betecknar Frobenius- normen . Observera att alla antaganden inte behövs för att detta resultat ska hålla. Inkoherensvillkoret spelar till exempel bara in i exakt rekonstruktion. Slutligen, även om trimning kan verka kontraintuitivt eftersom det involverar att kasta ut information, säkerställer det att projicering av på dess första huvudkomponenter ger mer information om den underliggande matrisen än om de observerade posterna.
I steg 3 kan utrymmet för kandidatmatriserna reduceras genom att notera att det inre minimeringsproblemet har samma lösning för ( som för där och är ortonormala av -matriser. Sedan gradientnedstigning utföras över korsprodukten av två Grassman-grenrör . Om och den observerade inmatningsmängden är i ordningen , är matrisen som returneras av steg 3 exakt . Då är algoritmen ordningsoptimal, eftersom vi vet att för att matriskompletteringsproblemet inte ska vara underbestämt måste antalet poster vara i storleksordningen .
Alternerande minsta kvadraters minimering
Alternerande minimering representerar ett allmänt tillämpbart och empiriskt framgångsrikt tillvägagångssätt för att hitta lågrankade matriser som bäst passar de givna uppgifterna. Till exempel, för problemet med att färdigställa matrisen med låg rang, tros denna metod vara en av de mest exakta och effektiva och utgjorde en viktig del av det vinnande bidraget i Netflix-problemet. I den alternerande minimeringsmetoden skrivs den låga målmatrisen i en bilinjär form :
;
Algoritmen växlar sedan mellan att hitta den bästa och den bästa . Medan det övergripande problemet är icke-konvext, är varje delproblem typiskt konvext och kan lösas effektivt. Jain, Netrapalli och Sanghavi har gett en av de första garantierna för prestanda av alternerande minimering för både matriskomplettering och matrisavkänning.
Den alternerande minimeringsalgoritmen kan ses som ett ungefärligt sätt att lösa följande icke-konvexa problem:
AltMinComplete Algorithm som föreslagits av Jain, Netrapalli och Sanghavi listas här:
- Ingång : observerad uppsättning , värden
- Partitionera i delmängder med varje element av som tillhör en av med lika sannolikhet (sampling med ersättning)
- dvs topp- vänster singular vektorer av
- Clipping : Ställ in alla element i som har en magnitud större än för att nollställa och ortonormalisera kolumnerna i
- för gör
- slut för
- Returnera
De visade att genom att observera slumpmässiga inmatningar av en inkoherent matris , AltMinComplete-algoritmen kan återställa i steg . När det gäller provkomplexitet ( ), teoretiskt sett, kan alternerande minimering kräva en större än konvex avslappning. Emellertid tycks det inte vara fallet, vilket innebär att urvalets komplexitetsgränser kan skärpas ytterligare. När det gäller tidskomplexitet visade de att AltMinComplete behöver tid
.
Det är värt att notera att även om konvexa avslappningsbaserade metoder har rigorös analys, är alternerande minimeringsbaserade algoritmer mer framgångsrika i praktiken. [ citat behövs ]
Ansökningar
Flera tillämpningar av matriskomplettering sammanfattas av Candès och Plan enligt följande:
Kollaborativ filtrering
Kollaborativ filtrering är uppgiften att göra automatiska förutsägelser om en användares intressen genom att samla in smakinformation från många användare. Företag som Apple, Amazon, Barnes och Noble och Netflix försöker förutsäga sina användarpreferenser utifrån delvis kunskap. I dessa typer av matriskompletterande problem anses den okända fullständiga matrisen ofta vara låg rang, eftersom endast ett fåtal faktorer vanligtvis bidrar till en individs smak eller preferens.
Systemidentifiering
I kontroll skulle man vilja passa in en diskret-tid linjär tid-invariant tillstånd-rum modell
till en sekvens av ingångar och utgångar . Vektorn är systemets tillstånd vid tidpunkten och är ordningen på systemmodellen. Från input/output-paret skulle man vilja återställa matriserna och initialtillståndet . Detta problem kan också ses som ett problem med att färdigställa matrisen med låg rangordning.
Internet of things (IoT) lokalisering
Lokaliseringsproblemet (eller global positionering) dyker upp naturligt i IoT-sensornätverk. Problemet är att återställa sensorkartan i det euklidiska rymden från en lokal eller partiell uppsättning parvisa avstånd. Det är alltså ett problem med matriskomplettering med rang två om sensorerna är placerade i ett 2-D-plan och tre om de är i ett 3-D-utrymme.
Återställning av sociala nätverk
De flesta av de verkliga sociala nätverken har låga distansmatriser. När vi inte kan mäta hela nätverket, vilket kan bero på till exempel privata noder, begränsad lagring eller beräkningsresurser, har vi bara en bråkdel av distansposterna kända. Kriminella nätverk är ett bra exempel på sådana nätverk. Low-rank Matrix Completion kan användas för att återställa dessa oobserverade avstånd.