Regularisering genom spektralfiltrering

Spektral regularisering är någon av en klass av regulariseringstekniker som används i maskininlärning för att kontrollera påverkan av brus och förhindra överanpassning . Spektral regularisering kan användas i ett brett spektrum av applikationer, från att göra bilder oskarpa till att klassificera e-postmeddelanden i en skräppostmapp och en icke-spammapp. Till exempel, i e-postklassificeringsexemplet kan spektral regularisering användas för att minska påverkan av brus och förhindra överanpassning när ett maskininlärningssystem tränas på en märkt uppsättning e-postmeddelanden för att lära sig hur man berättar om en spam och en icke-spam e-post isär.

Spektralreguljäriseringsalgoritmer förlitar sig på metoder som ursprungligen definierades och studerades i teorin om illa ställda inversa problem (till exempel, se) med fokus på inversionen av en linjär operator (eller en matris) som möjligen har ett dåligt tillståndsnummer eller ett obegränsat omvänd. I detta sammanhang innebär regularisering att ersätta den ursprungliga operatorn med en begränsad operator som kallas "regularization operator" som har ett villkorsnummer som kontrolleras av en regulariseringsparameter, ett klassiskt exempel är Tikhonov- regularisering . För att säkerställa stabilitet justeras denna regleringsparameter baserat på brusnivån. Huvudtanken bakom spektral regularisering är att varje regulariseringsoperator kan beskrivas med spektralkalkyl som ett lämpligt filter på egenvärdena för operatorn som definierar problemet, och filtrets roll är att "undertrycka det oscillerande beteendet som motsvarar små egenvärden" . Därför definieras varje algoritm i klassen av spektrala regulariseringsalgoritmer av en lämplig filterfunktion (som måste härledas för den specifika algoritmen). Tre av de vanligaste regulariseringsalgoritmerna för vilka spektralfiltrering är väl studerad är Tikhonov-regularisering, Landweber-iteration och trunkerad singularvärdesupplösning (TSVD). När det gäller valet av regulariseringsparametern inkluderar exempel på kandidatmetoder för att beräkna denna parameter diskrepansprincipen, generaliserad korsvalidering och L-kurvkriteriet.

Det är anmärkningsvärt att begreppet spektralfiltrering som studeras i samband med maskininlärning är nära kopplat till litteraturen om funktionsapproximation (vid signalbehandling).

Notation

Träningsuppsättningen definieras som , där är inmatningsmatrisen och är utdatavektorn. I tillämpliga fall betecknas kärnfunktionen med , och kärnmatrisen betecknas med som har poster och betecknar det återgivande kärnan Hilbert Space (RKHS) med kärna . Regulariseringsparametern betecknas med .

(Obs: För och , där och är Hilbert-mellanslag, givet en linjär, kontinuerlig operator , antag att gäller. I den här inställningen skulle det direkta problemet vara att lösa för givet och det inversa problemet skulle vara att lösa för givet . Om lösningen finns, är unik och stabil, är det inversa problemet (dvs problemet med att lösa ) välpositionerad; annars är den dåligt poserad.)

Relation till teorin om illa ställda omvända problem

Kopplingen mellan uppskattningsproblemet med regulariserade minsta kvadrater (RLS) (Tikhonov-regulariseringsinställning) och teorin om illa ställda inversa problem är ett exempel på hur spektrala regulariseringsalgoritmer är relaterade till teorin om illa ställda inversa problem.

RLS-estimatorn löser

och RKHS tillåter att uttrycka denna RLS-estimator som där med . Strafftermen används för att kontrollera jämnheten och förhindra överanpassning. Eftersom lösningen av empirisk riskminimering som så att , att lägga till strafffunktionen motsvarar följande förändring i systemet som måste lösas:

I den här inlärningsinställningen kan kärnmatrisen dekomponeras som , med

och är motsvarande egenvektorer. Därför gäller följande i den inledande inlärningsmiljön:

För små egenvärden kan alltså även små störningar i data leda till avsevärda förändringar i lösningen. Följaktligen är problemet dåligt betingat, och att lösa detta RLS-problem innebär att stabilisera ett eventuellt dåligt betingat matrisinversionsproblem, vilket studeras i teorin om illa ställda inversa problem; i båda problemen är ett huvudproblem att ta itu med frågan om numerisk stabilitet.

Implementering av algoritmer

Varje algoritm i klassen av spektrala regulariseringsalgoritmer definieras av en lämplig filterfunktion, här betecknad med . Om kärnmatrisen betecknas med , då bör styra storleken på de mindre egenvärdena för . I en filtreringsuppsättning är målet att hitta estimatorer c . För att göra det definieras en skalär filterfunktion med hjälp av egennedbrytningen av kärnmatrisen:

Vilket ger

Vanligtvis bör en lämplig filterfunktion ha följande egenskaper:

1. När går till noll, .

2. Storleken på de (mindre) egenvärdena för styrs av .

Medan ovanstående poster ger en grov karakterisering av filterfunktionernas allmänna egenskaper för alla spektrala regulariseringsalgoritmer, varierar härledningen av filterfunktionen (och därmed dess exakta form) beroende på den specifika regulariseringsmetod som spektralfiltrering tillämpas på.

Filterfunktion för Tikhonov-regularisering

I Tikhonov-regulariseringsinställningen beskrivs filterfunktionen för RLS nedan. Som visas i, i den här inställningen, . Således,

De oönskade komponenterna filtreras bort med hjälp av regularisering:

  • Om , då .
  • Om , då .

Filterfunktionen för Tikhonov-regularisering definieras därför som:

Filterfunktion för Landweber iteration

Tanken bakom Landweber-iterationen är gradientnedstigning :

I den här inställningen, om är större än s största egenvärde, konvergerar ovanstående iteration genom att välja som steg- storlek:. Ovanstående iteration motsvarar att minimera (dvs den empiriska risken) via gradientnedstigning; med induktion kan det bevisas att vid -te iterationen ges lösningen av

Således definieras lämplig filterfunktion av:

Det kan visas att denna filterfunktion motsvarar en trunkerad effektexpansion av ; för att se detta, notera att relationen fortfarande skulle håll om ersätts av en matris; alltså, om (kärnmatrisen), eller snarare , beaktas, gäller följande:

I den här inställningen ger antalet iterationer regulariseringsparametern; grovt sett, . Om är stort kan övermontering vara ett problem. Om är litet kan överutjämning vara ett problem. Att välja en lämplig tidpunkt för tidigt avbrytande av iterationerna ger således en regulariseringseffekt.

Filterfunktion för TSVD

I TSVD-inställningen, givet egennedbrytningen och med ett föreskrivet tröskelvärde , kan en reglerad invers vara bildas för kärnmatrisen genom att förkasta alla egenvärden som är mindre än denna tröskel. Således kan filterfunktionen för TSVD definieras som

Det kan visas att TSVD är likvärdig med (oövervakad) projektion av data med hjälp av (kärn) Principal Component Analysis (PCA), och att det också är likvärdigt med att minimera den empiriska risken på den projicerade datan (utan regularisering). Observera att antalet komponenter som sparas för projektionen är den enda lediga parametern här.