Strukturell riskminimering

Strukturell riskminimering (SRM) är en induktiv princip för användning i maskininlärning . Vanligtvis inom maskininlärning måste en generaliserad modell väljas från en ändlig datamängd, med åtföljande problem med överanpassning – modellen blir alltför starkt anpassad till träningsuppsättningens särdrag och generaliserar dåligt till nya data. SRM-principen tar itu med detta problem genom att balansera modellens komplexitet mot dess framgång med att anpassa träningsdata. Denna princip fastställdes först i ett papper från 1974 av Vladimir Vapnik och Alexey Chervonenkis och använder VC-dimensionen .

Rent praktiskt implementeras strukturell riskminimering genom att minimera , där är tågfelet, funktionen kallas en regulariseringsfunktion och är en konstant. väljs så att den tar stora värden på parametrarna som hör till högkapacitetsdelmängder av parameterutrymmet. Att minimera begränsar i själva verket kapaciteten för de tillgängliga delmängderna av parameterutrymmet, och kontrollerar därigenom avvägningen mellan att minimera träningsfelet och minimera det förväntade gapet mellan träningsfelet och testfelet .

SRM-problematiken kan formuleras i termer av data. Givet n datapunkter som består av data x och etiketter y, uttrycks objektivet

Den första termen är termen för medelkvadratfel (MSE) mellan värdet på den inlärda modellen, , och de givna etiketterna . Denna term är träningsfelet, som diskuterades tidigare. Den andra termen placerar en prior över vikterna, för att gynna sparsitet och straffa större vikter. Avvägningskoefficienten, , är en hyperparameter som lägger mer eller mindre vikt på regulariseringstermen. Större uppmuntrar glesare vikter på bekostnad av en mer optimal MSE, och mindre minskar regulariseringen så att modellen kan anpassas till data. Observera att som blir vikterna noll, och som lider modellen typiskt av överanpassad.


Se även

externa länkar