Statistisk inlärningsteori
Del av en serie om |
maskininlärning och datautvinning |
---|
Statistisk inlärningsteori är ett ramverk för maskininlärning från områdena statistik och funktionsanalys . Statistisk inlärningsteori behandlar det statistiska slutledningsproblemet att hitta en prediktiv funktion baserad på data. Statistisk inlärningsteori har lett till framgångsrika tillämpningar inom områden som datorseende , taligenkänning och bioinformatik .
Introduktion
Målen för lärande är förståelse och förutsägelse. Lärande delas in i många kategorier, inklusive övervakat lärande , oövervakat lärande , onlineinlärning och förstärkningsinlärning . Ur statistisk lärandeteoris perspektiv förstås övervakat lärande bäst. Övervakat lärande innebär att man lär sig från en utbildningsuppsättning data. Varje punkt i träningen är ett input-out-par, där ingången mappas till en utgång. Inlärningsproblemet består i att sluta sig till funktionen som mappar mellan input och output, så att den inlärda funktionen kan användas för att förutsäga output från framtida input.
Beroende på typen av resultat är problem med övervakad inlärning antingen problem med regression eller problem med klassificering . Om utgången tar ett kontinuerligt värdeintervall är det ett regressionsproblem. Med Ohms lag som exempel skulle en regression kunna utföras med spänning som ingång och ström som utgång. Regressionen skulle finna att det funktionella förhållandet mellan spänning och ström är , så att
Klassificeringsproblem är sådana där utdata kommer att vara ett element från en diskret uppsättning etiketter. Klassificering är mycket vanligt för maskininlärningsapplikationer. I ansiktsigenkänning , till exempel, skulle en bild av en persons ansikte vara indata, och utdataetiketten skulle vara den personens namn. Ingången skulle representeras av en stor flerdimensionell vektor vars element representerar pixlar i bilden.
Efter att ha lärt sig en funktion baserad på träningsuppsättningens data, valideras den funktionen på en testuppsättning data, data som inte förekom i träningsuppsättningen.
Formell beskrivning
Ta för att vara vektorrymden för alla möjliga indata, och för att vara vektorrymden för alla möjliga utdata. Statistisk inlärningsteori tar perspektivet att det finns någon okänd över produktutrymmet , dvs det finns några okända . Träningsuppsättningen består av sampel från denna sannolikhetsfördelning och är noterad
Varje är en indatavektor från träningsdata, och är den utdata som motsvarar den.
I denna formalism består inferensproblemet i att hitta en funktion så att . Låt vara ett rum av funktioner som kallas hypotesrummet. Hypotesutrymmet är det utrymme av funktioner som algoritmen kommer att söka igenom. Låt vara förlustfunktionen , ett mått för skillnaden mellan det förutsagda värdet och det faktiska värdet . Den förväntade risken definieras som
Målfunktionen, den bästa möjliga funktionen som kan väljas, ges av som uppfyller
Eftersom sannolikhetsfördelningen är okänd måste ett proxymått för den förväntade risken användas. Detta mått baseras på träningsuppsättningen, ett urval från denna okända sannolikhetsfördelning. Det kallas den empiriska risken
En inlärningsalgoritm som väljer funktionen som minimerar den empiriska risken kallas empirisk riskminimering .
Förlustfunktioner
Valet av förlustfunktion är en avgörande faktor för funktionen som kommer att väljas av inlärningsalgoritmen. Förlustfunktionen påverkar också konvergenshastigheten för en algoritm. Det är viktigt att förlustfunktionen är konvex .
Olika förlustfunktioner används beroende på om problemet är ett regressions- eller ett klassificeringsproblem.
Regression
Den vanligaste förlustfunktionen för regression är kvadratförlustfunktionen (även känd som L2-normen ) . Denna välbekanta förlustfunktion används i vanlig minsta kvadraters regression . Formen är:
Den absoluta värdeförlusten (även känd som L1-normen ) används också ibland:
Klassificering
I någon mening är 0-1- indikatorfunktionen den mest naturliga förlustfunktionen för klassificering. Den tar värdet 0 om den förutsagda utsignalen är densamma som den faktiska utsignalen, och den tar värdet 1 om den förutsagda utsignalen skiljer sig från den faktiska utmatningen. För binär klassificering med är detta:
där är Heaviside-stegfunktionen .
Regularisering
I maskininlärningsproblem är ett stort problem som uppstår det med överanpassning . Eftersom inlärning är ett prediktionsproblem, är målet inte att hitta en funktion som bäst passar de (tidigare observerade) data, utan att hitta en som mest exakt förutsäger utdata från framtida indata. Empirisk riskminimering löper denna risk för överanpassning: att hitta en funktion som matchar data exakt men som inte förutsäger framtida produktion väl.
Övermontering är symptomatisk för instabila lösningar; en liten störning i träningsuppsättningens data skulle orsaka en stor variation i den inlärda funktionen. Det kan visas att om stabiliteten för lösningen kan garanteras garanteras även generalisering och konsekvens. Regulering kan lösa övermonteringsproblemet och ge problemet stabilitet.
Regularisering kan åstadkommas genom att begränsa hypotesutrymmet . Ett vanligt exempel skulle vara att begränsa till linjära funktioner: detta kan ses som en minskning till standardproblemet med linjär regression . skulle också kunna begränsas till polynom av grad exponentialer eller begränsade funktioner på L1 . Begränsning av hypotesutrymmet undviker överanpassning eftersom formen på de potentiella funktionerna är begränsad och därför inte tillåter valet av en funktion som ger empirisk risk godtyckligt nära noll.
Ett exempel på regularisering är Tikhonov-regularisering . Detta består i att minimera
där är en fast och positiv parameter, regulariseringsparametern. Tikhonov-regularisering säkerställer existens, unikhet och stabilitet hos lösningen.
Se även
- Återskapa kärnan Hilbert-mellanslag är ett användbart val för .
- Proximala gradientmetoder för inlärning