Tensor rank nedbrytning
I multilinjär algebra är sönderdelningen av tensorrangen eller r sönderdelningen av en tensor nedbrytningen av en tensor i termer av summan av minimum tensorer. Detta är ett öppet problem.
Kanonisk polyadisk nedbrytning (CPD) är en variant av ranguppdelningen som beräknar de bäst passande termer för en användarspecificerad . CP-nedbrytningen har funnit vissa tillämpningar inom lingvistik och kemometri . CP-rankningen introducerades av Frank Lauren Hitchcock 1927 och återupptäcktes senare flera gånger, särskilt inom psykometri. CP-nedbrytningen hänvisas till som CANDECOMP, PARAFAC eller CANDECOMP/PARAFAC (CP). Nedbrytning av PARAFAC2-rankningen är ännu att utforska.
En annan populär generalisering av matrisen SVD, känd som singularvärdesuppdelningen av högre ordning, beräknar matriser i ortonormalt läge och har hittat tillämpningar inom ekonometri , signalbehandling , datorseende , datorgrafik , psykometri .
Notation
En skalär variabel betecknas med kursiv versal, och en skalär med övre gräns betecknas med en versal kursiv bokstav, .
Index betecknas med en kombination av gemener och versaler kursiverade bokstäver, . Flera index som man kan stöta på när man hänvisar till en tensors multipla lägen betecknas lämpligen med där .
En vektor betecknas med små bokstäver med fetstil Times Roman, och en matris betecknas med feta versaler .
En högre ordnings tensor betecknas med kalligrafiska bokstäver, . Ett element av en -order tensor betecknas med eller .
Definition
En datatensor är en samling multivariata observationer organiserade i en M -vägsmatris där M = C +1. Varje tensor kan representeras med en lämpligt stor som en linjär kombination av rank-1 tensorer:
där och där . När antalet termer är minimalt i uttrycket ovan, kallas tensorns rang , och nedbrytningen kallas ofta för en (tensor) rangnedbrytning , minimal CP sönderdelning eller kanonisk polyadisk sönderdelning (CPD) . Om antalet termer inte är minimalt, så benämns ovanstående sönderdelning ofta som CANDECOMP/PARAFAC , polyadisk sönderdelning'.
Tensor rang
NP-hårt att beräkna rangen för en tensor . Det enda anmärkningsvärda välförstådda fallet består av tensorer i , vars rang kan erhållas från Kronecker – Weierstrass normalform av den linjära matrispenna som tensorn representerar. Det finns en enkel polynom-tidsalgoritm för att intyga att en tensor är av rang 1, nämligen den högre ordningens singularvärdesupplösning .
Rangen för tensorn av nollor är noll enligt konventionen. Rangen för en tensor förutsatt att .
Fältberoende
Rangen för en tensor beror på det fält över vilket tensorn bryts ned. Det är känt att vissa verkliga tensorer kan medge en komplex nedbrytning vars rang är strikt lägre än rangordningen för en verklig nedbrytning av samma tensor. Som ett exempel, betrakta följande verkliga tensor
där . Rangen för denna tensor över realerna är känd för att vara 3, medan dess komplexa rang bara är 2 eftersom den är summan av en komplex rang-1 tensor med dess komplexa konjugat , nämligen
där .
Däremot kommer rankningen av verkliga matriser aldrig att minska under en fältförlängning till : verklig matrisrankning och komplex matrisrankning sammanfaller för verkliga matriser.
Generisk rang
Den generiska rangordningen definieras som den lägsta rangordningen så att stängningen i Zariski-topologin för uppsättningen tensorer av högst rang är hela rymden . När det gäller komplexa tensorer bildar tensorer med högst rang en tät mängd : varje tensor i det ovannämnda utrymmet har antingen rang som är lägre än den generiska rangordningen, eller så är den gränsen i den euklidiska topologin för en sekvens av tensorer från . När det gäller verkliga tensorer, bildar uppsättningen tensorer av högst rang endast en öppen uppsättning av positivt mått i den euklidiska topologin. Det kan finnas euklidiska öppna uppsättningar av tensorer av rang som är strikt högre än den generiska rangordningen. Alla rangordningar som förekommer på öppna uppsättningar i den euklidiska topologin kallas typiska rangordningar . Den minsta typiska rangen kallas generisk rang; denna definition gäller både komplexa och verkliga tensorer. Den generiska rangordningen av tensorutrymmen studerades ursprungligen 1983 av Volker Strassen .
Som en illustration av ovanstående begrepp är det känt att både 2 och 3 är typiska rangordningar av medan den generiska rangordningen för är 2. Praktiskt taget betyder detta att en slumpmässigt samplade reell tensor (från ett kontinuerligt sannolikhetsmått på tensorernas rymd) med storleken kommer att vara en rang-1-tensor med sannolikhet noll, en rang-2-tensor med positiv sannolikhet och rang-3 med positiv sannolikhet. Å andra sidan kommer en slumpmässigt samplade komplex tensor av samma storlek att vara en rang-1-tensor med sannolikhet noll, en rang-2-tensor med sannolikhet ett och en rang-3-tensor med sannolikhet noll. Det är till och med känt att den generiska rank-3 verkliga tensorn i kommer att ha komplex rang lika med 2.
Den generiska rangordningen av tensorrum beror på skillnaden mellan balanserade och obalanserade tensorrum. Ett tensorrum där , kallas obalanserad närhelst
och det kallas balanserat annars.
Obalanserade tensorutrymmen
När den första faktorn är mycket stor med avseende på de andra faktorerna i tensorprodukten, uppträder tensorutrymmet väsentligen som ett matrisutrymme. Det är känt att den generiska rangordningen av tensorer som lever i obalanserade tensorutrymmen är lika
nästan överallt . Mer exakt, rangordningen för varje tensor i ett obalanserat tensorutrymme där är någon obestämd sluten uppsättning i Zariski-topologin, lika med ovanstående värde.
Balanserade tensorutrymmen
Den förväntade generiska rangordningen för tensorer som lever i ett balanserat tensorutrymme är lika med
nästan överallt för komplexa tensorer och på ett euklidiskt öppet set för riktiga tensorer, var
Mer exakt, rangordningen för varje tensor i där är någon obestämd sluten uppsättning i Zariski-topologin , förväntas vara lika med ovanstående värde. För verkliga tensorer är den lägsta rangordningen som förväntas inträffa på en uppsättning av positivt euklidiskt mått. Värdet hänvisas ofta till som den förväntade generiska rangordningen för tensorrymden eftersom det bara är gissningsmässigt korrekt. Det är känt att den sanna generiska rangen alltid uppfyller
Abo –Ottaviani–Peterson gissningen säger att jämlikhet förväntas, dvs med följande undantagsfall:
I vart och ett av dessa undantagsfall är den generiska rangordningen känd för att vara . Observera att även om uppsättningen av tensorer av rang 3 i är defekt (13 och inte den förväntade 14), den generiska rangen i det utrymmet är fortfarande den förväntade, 4. På samma sätt är uppsättningen tensorer av rang 5 i defekt (44 och inte förväntad 45), men den generiska rangordningen i det utrymmet är fortfarande den förväntade 6.
AOP-gissningen har bevisats fullständigt i ett antal specialfall. Lickteig visade redan 1985 att förutsatt att . 2011 etablerades ett stort genombrott av Catalisano, Geramita och Gimigliano som bevisade att den förväntade dimensionen av uppsättningen av rang s tensorer av formatet är den förväntade utom för rang 3 tensorer i 4-faktorfallet, men den förväntade rangordningen i det fallet är fortfarande 4. Som en konsekvens är för alla binära tensorer.
Maximal rang
Den maximala rang som kan tillåtas av någon av tensorerna i ett tensorutrymme är i allmänhet okänd; till och med en gissning om denna högsta rang saknas. För närvarande anger den bästa allmänna övre gränsen att den maximala rangordningen av där uppfyller
där är den (minsta) generiska rangordningen för . Det är välkänt att ovanstående ojämlikhet kan vara strikt. Till exempel är den generiska rangordningen för tensorer i två, så att ovanstående gräns ger medan det är känt att den maximala rangen är lika med 3.
Gränsrankning
En rank- tensor kallas en gränstensor om det finns en sekvens av tensorer med högst rang vars gräns är . Om är det minsta värdet för vilket en sådan konvergent sekvens existerar, så kallas det gränsrankningen av . För tensorer av ordning 2, dvs matriser, sammanfaller alltid rang- och kantrankning, men för tensorer av ordning kan de skilja sig åt. Gränstensorer studerades först i samband med snabba, ungefärliga matrismultiplikationsalgoritmer av Bini, Lotti och Romani 1980.
Ett klassiskt exempel på en gränstensor är rank-3 tensor
Det kan approximeras godtyckligt väl genom följande sekvens av rang-2-tensorer
som . Därför är dess gränsrankning 2, vilket är strikt lägre än dess rang. När de två vektorerna är ortogonala är detta exempel också känt som ett W-tillstånd .
Egenskaper
Identifierbarhet
Det följer av definitionen av en ren tensor att om och endast om det finns så att och för alla m . Av denna anledning är parametrarna för en rank-1 tensor kallas identifierbara eller i huvudsak unika. A rank- tensor kallas identifierbar om var och en av dess tensorranguppdelningar är summan av samma uppsättning distinkta tensorer där är av rang 1. En identifierbar rang- har alltså bara en väsentligen unik uppdelning
Generisk identifierbarhet
Ordnings-2 tensorer i , dvs matriser, är inte identifierbara för . Detta följer i huvudsak av observationen
Situationen förändras helt för högre ordningens tensorer i med och alla . För enkelhetens skull, anta utan förlust av allmänhet att faktorerna är ordnade så att . Låt betecknar uppsättningen av tensorer av rang som begränsas av . Sedan visade sig följande påstående vara korrekt med hjälp av ett datorstödt bevis för alla utrymmen med dimensionen och det antas vara giltigt i allmänhet:
Det finns en sluten uppsättning i Zariski-topologin så att varje tensor är identifierbar ( kallas generiskt identifierbar i det här fallet), såvida inte något av följande undantagsfall gäller:
- Rangen är för stor: ;
- Utrymmet är identifierbarhetsobalanserat, dvs och rangordningen är för stor: ;
- Mellanrummet är det defekta fallet och rangordningen är ;
- Mellanrummet är det defekta fallet där , och rangordningen är ;
- Mellanrummet är och rangordningen är ;
- Mellanrummet är och rangordningen är ; eller
- Mellanrummet är och rangordningen är .
- Utrymmet är perfekt, dvs är ett heltal, och rangordningen är .
I dessa undantagsfall är det generiska (och även minsta) antalet komplexa nedbrytningar
- visade sig vara i de första 4 fallen;
- visade sig vara två i fall 5;
- förväntas vara sex i fall 6;
- visade sig vara två i fall 7; och
- förväntas vara minst två i fall 8 med undantag för de två identifierbara fallen och .
Sammanfattningsvis, den generiska tensorn av ordningen och rang som inte är identifierbar -obalanserad förväntas vara identifierbar (modulo undantagsfallen i små utrymmen).
Problemet med standardapproximation är dåligt ställd
Rangapproximationsproblemet frågar efter rank- -nedbrytningen närmast (i den vanliga euklidiska topologin) någon rang- tensor , där . Det vill säga man söker lösa
där är Frobenius-normen .
Det visades i en uppsats från 2008 av de Silva och Lim att ovanstående standardapproximationsproblem kan vara dåligt ställt . En lösning på ovannämnda problem kanske ibland inte finns eftersom den uppsättning som man optimerar över inte är stängd. Som sådan kanske en minimerare inte existerar, även om ett infimum skulle finnas. I synnerhet är det känt att vissa så kallade gränstensorer kan approximeras godtyckligt väl av en tensorsekvens av högst , även om gränsen för sekvensen konvergerar till en tensor av rang som är strikt högre än . rank-3 tensor
kan approximeras godtyckligt väl genom följande sekvens av rang-2-tensorer
som . Det här exemplet illustrerar på ett snyggt sätt den allmänna principen att en sekvens av rank- -tensorer som konvergerar till en tensor med strikt högre rang måste tillåta minst två individuella rank-1-termer vars normer blir obegränsade. Anges formellt, närhelst en sekvens
har egenskapen att i den euklidiska topologin) som , då bör det finnas minst så att
som . Detta fenomen uppstår ofta när man försöker approximera en tensor med hjälp av numeriska optimeringsalgoritmer. Det kallas ibland problemet med divergerande komponenter . Det visades dessutom att en slumpmässig lågrankad tensor över realerna kanske inte medger en rank-2 approximation med positiv sannolikhet, vilket leder till förståelsen att ill-posedness-problemet är ett viktigt övervägande när man använder tensor rank-nedbrytningen.
En vanlig dellösning på illamåendeproblemet består i att införa en ytterligare ojämlikhetsbegränsning som begränsar normen för de individuella rang-1-termerna med någon konstant. Andra begränsningar som resulterar i en sluten uppsättning, och därmed ett välpositivt optimeringsproblem, inkluderar att påtvinga positivitet eller en avgränsad inre produkt som är strikt mindre än enhet mellan rang-1-termerna som förekommer i den sökta nedbrytningen.
Beräknar CPD
Alternerande algoritmer:
- alternerande minsta kvadrater (ALS)
- alternerande skivvis diagonalisering (ASD)
Direkta algoritmer:
- blyertsbaserade algoritmer
- momentbaserade algoritmer
Allmänna optimeringsalgoritmer:
- simultan diagonalisering (SD)
- simultan generaliserad Schur-nedbrytning (SGSD)
- Levenberg–Marquardt (LM)
- icke-linjär konjugerad gradient (NCG)
- begränsat minne BFGS (L-BFGS)
Allmänna polynomsystemlösningsalgoritmer:
Ansökningar
Inom maskininlärning är CP-nedbrytningen den centrala ingrediensen i inlärning av probabilistiska latenta variabelmodeller via tekniken för momentmatchning. Tänk till exempel på multi-view modellen som är en probabilistisk latent variabel modell. I denna modell ställs genereringen av sampel på följande sätt: det finns en dold slumpvariabel som inte observeras direkt, givet vilken det finns flera villkorligt oberoende slumpvariabler kända som de olika "vyerna" av den dolda variabeln. För enkelhets skull, antag att det finns tre symmetriska vyer av en -state kategorisk dold variabel . Sedan kan det empiriska tredje momentet i denna latenta variabelmodell skrivas som: .
I applikationer som ämnesmodellering kan detta tolkas som att ord förekommer samtidigt i ett dokument. Då kan egenvärdena för denna empiriska momenttensor tolkas som sannolikheten för att välja ett specifikt ämne och varje kolumn i faktormatrisen motsvarar sannolikheter för ord i vokabulären i motsvarande ämne.
Se även
- Latent klassanalys
- Multilinjär subspace-inlärning
- Singulärvärdesfaktorisering
- Tuckers nedbrytning
- Singularvärdesupplösning av högre ordning
- Tensornedbrytning
Vidare läsning
- Kolda, Tamara G. ; Bader, Brett W. (2009). "Tensorupplösningar och tillämpningar". SIAM Rev. 51 (3): 455–500. Bibcode : 2009SIAMR..51..455K . CiteSeerX 10.1.1.153.2059 . doi : 10.1137/07070111X .
- Landsberg, Joseph M. (2012). Tensorer: Geometri och tillämpningar . AMS.
externa länkar
- Handledning för PARAFAC
- Parallellfaktoranalys (PARAFAC)
- FactoMineR (gratis utforskande multivariat dataanalysprogramvara kopplad till R )