Bayesiansk tolkning av kärnreglering
Inom bayesiansk statistik för maskininlärning uppstår kärnmetoder från antagandet om ett inre produktutrymme eller likhetsstruktur på indata . För vissa sådana metoder, såsom stödvektormaskiner (SVM), var den ursprungliga formuleringen och dess regularisering inte av Bayesiansk natur. Det är bra att förstå dem ur ett Bayesianskt perspektiv. Eftersom kärnorna inte nödvändigtvis är positiva semidefinita, kanske den underliggande strukturen inte är inre produktutrymmen, utan istället mer generella reproducerande kärna Hilbert-utrymmen . I Bayesiansk sannolikhet är kärnmetoder en nyckelkomponent i Gaussiska processer , där kärnfunktionen är känd som kovariansfunktionen. Kärnmetoder har traditionellt använts i övervakade inlärningsproblem där inmatningsutrymmet vanligtvis är ett utrymme av vektorer medan utgångsutrymmet är ett utrymme av skalärer . På senare tid har dessa metoder utvidgats till problem som handlar om flera resultat, till exempel i multi-task learning .
En matematisk motsvarighet mellan regulariseringen och den Bayesianska synvinkeln är lätt bevisad i fall där den reproducerande kärnan Hilbert-rymden är finitdimensionell . Det oändliga fallet väcker subtila matematiska frågor; vi kommer här att betrakta det finita dimensionella fallet. Vi börjar med en kort genomgång av huvudidéerna bakom kärnmetoder för skalärt lärande, och introducerar kort begreppen regularisering och gaussiska processer. Vi visar sedan hur båda synpunkterna kommer fram till i huvudsak likvärdiga estimatorer , och visar sambandet som binder dem samman.
Det övervakade inlärningsproblemet
Det klassiska övervakade inlärningsproblemet kräver att man uppskattar utdata för någon ny ingångspunkt genom att lära sig en skalärvärderad estimator på basis av en träningsuppsättning bestående av input-out-par, . Med tanke på en symmetrisk och positiv bivariat funktion som kallas en kärna , ges en av de mest populära estimatorerna inom maskininlärning av
-
()
-
där är kärnmatrisen med poster , och . Vi kommer att se hur denna estimator kan härledas både ur ett regulariserings- och ett Bayesianskt perspektiv.
Ett legaliseringsperspektiv
Huvudantagandet i regulariseringsperspektivet är att uppsättningen funktioner antas tillhöra en reproducerande kärna Hilbert space .
Återskapa kärnan Hilbert space
En reproducerande kärna Hilbert-rymd (RKHS) är ett Hilbert-rum med funktioner definierade av en symmetrisk , positiv-definitiv funktion anropade den reproducerande kärnan så att funktionen tillhör för alla . Det finns tre huvudegenskaper som gör en RKHS tilltalande:
1. Den reproducerande egenskapen , som ger namn åt utrymmet,
där är den inre produkten i .
2. Funktioner i en RKHS ligger i stängningen av den linjära kombinationen av kärnan vid givna punkter,
- .
Detta möjliggör konstruktionen i ett enhetligt ramverk av både linjära och generaliserade linjära modeller.
3. Den kvadratiska normen i en RKHS kan skrivas som
och kan ses som en mätning av funktionens komplexitet .
Den regulariserade funktionella
Estimatorn härleds som minimeraren av den regulariserade funktionella
-
()
-
där och är normen i . Den första termen i denna funktion, som mäter medelvärdet av kvadraterna av felen mellan och , kallas den empiriska risken och representerar kostnaden vi betalar genom att förutsäga för det verkliga värdet . Den andra termen i det funktionella är den kvadratiska normen i ett RKHS multiplicerat med en vikt och tjänar syftet att stabilisera problemet såväl som att lägga till en kompromiss mellan anpassning och komplexitet hos skattaren. Vikten , kallad regularizer , bestämmer i vilken grad instabilitet och komplexitet hos estimatorn ska straffas (högre straff för att öka värdet på .
Härledning av estimatorn
Den explicita formen av estimatorn i ekvation ( 1 ) härleds i två steg. För det första anger representationssatsen att minimeraren för det funktionella ( 2 ) alltid kan skrivas som en linjär kombination av kärnorna centrerade vid träningssetpunkterna,
-
()
-
för vissa . Den explicita formen av koefficienterna hittas genom att ersätta i den funktionella ( 2 ). För en funktion av formen i ekvation ( 3 ) har vi det
Vi kan skriva om den funktionella ( 2 ) som
Denna funktion är konvex i och därför kan vi hitta dess minimum genom att sätta gradienten med avseende på till noll,
Genom att ersätta koefficienterna i ekvation ( 3 ) med detta uttryck får vi estimatorn som angavs tidigare i ekvation ( 1 ),
Ett Bayesianskt perspektiv
Begreppet en kärna spelar en avgörande roll i Bayesiansk sannolikhet som kovariansfunktionen för en stokastisk process som kallas Gauss-processen .
En genomgång av Bayesiansk sannolikhet
Som en del av det Bayesianska ramverket specificerar den Gaussiska processen den tidigare fördelningen som beskriver de tidigare föreställningarna om egenskaperna hos den funktion som modelleras. Dessa övertygelser uppdateras efter att ha beaktat observationsdata med hjälp av en sannolikhetsfunktion som relaterar de tidigare föreställningarna till observationerna. Sammantaget leder prioriteten och sannolikheten till en uppdaterad fördelning som kallas den posteriora fördelningen som vanligtvis används för att förutsäga testfall.
Den Gaussiska processen
En Gauss-process (GP) är en stokastisk process där ett ändligt antal slumpvariabler som samplas följer en gemensam normalfördelning . Medelvektorn och kovariansmatrisen för den Gaussiska fördelningen specificerar fullständigt GP. GPs används vanligtvis som a priori-fördelning för funktioner, och som sådan kan medelvektorn och kovariansmatrisen ses som funktioner, där kovariansfunktionen också kallas kärnan i GP. Låt en funktion följa en gaussisk process med medelfunktion och kärnfunktion ,
När det gäller den underliggande gaussiska fördelningen har vi det för varje finit mängd om vi låter sedan
där är medelvektorn och är kovariansmatrisen för den multivariata Gaussfördelningen.
Härledning av estimatorn
I ett regressionssammanhang antas sannolikhetsfunktionen vanligtvis vara en Gaussfördelning och observationerna vara oberoende och identiskt fördelade (iid),
Detta antagande motsvarar att observationerna är korrupta med nollmedelsbrus från Gauss med varians . iid-antagandet gör det möjligt att faktorisera sannolikhetsfunktionen över datapunkterna givet uppsättningen av ingångar och variansen för bruset och sålunda kan den bakre fördelningen beräknas analytiskt. För en testingångsvektor , givet träningsdata , den bakre fördelningen ges av
där betecknar uppsättningen parametrar som inkluderar variansen av bruset och eventuella parametrar från kovariansfunktionen och var
Sambandet mellan regularisering och Bayes
En koppling mellan regulariseringsteori och Bayesiansk teori kan endast uppnås i fallet med änddimensionell RKHS . Under detta antagande är regulariseringsteori och Bayesiansk teori sammankopplade genom Gaussisk processförutsägelse.
I det finita dimensionella fallet kan varje RKHS beskrivas i termer av en funktionskarta så att
Funktioner i RKHS med kärnan kan sedan skrivas som
och det har vi också
Vi kan nu bygga en gaussisk process genom att anta ska fördelas enligt en multivariat Gauss-fördelning med nollmedelvärde och identitetskovariansmatris,
Om vi antar en Gaussisk sannolikhet har vi
där Den resulterande bakre fördelningen ges av
Vi kan se att en maximal posterior (MAP) uppskattning är ekvivalent med minimeringsproblemet som definierar Tikhonov-regularisering , där i det Bayesianska fallet är regulariseringsparametern relaterad till brusvariansen.
Ur ett filosofiskt perspektiv spelar förlustfunktionen i en regulariseringsmiljö en annan roll än sannolikhetsfunktionen i den Bayesianska miljön. Medan förlustfunktionen mäter felet som uppstår när istället för , mäter sannolikhetsfunktionen hur sannolika observationerna är från modellen det antogs vara sant i den generativa processen. Ur ett matematiskt perspektiv gör dock formuleringarna av regulariseringen och Bayesianska ramverken att förlustfunktionen och sannolikhetsfunktionen har samma matematiska roll att främja slutsatsen av funktioner f {\displaystyle f} som y så mycket som möjligt.
Se även
- Regulerade minsta kvadrater
- Bayesiansk linjär regression
- Bayesiansk tolkning av Tikhonov-regularisering