Rademacher komplexitet

I beräkningslärandeteori ( maskininlärning och beräkningsteori ) mäter Rademachers komplexitet , uppkallad efter Hans Rademacher , rikedomen hos en klass av verkligt värderade funktioner med avseende på en sannolikhetsfördelning .

Definitioner

Rademacher komplexitet av en uppsättning

Givet en mängd definieras Rademacher- komplexiteten för A enligt följande:

där är oberoende slumpvariabler hämtade från Rademacher-fördelningen dvs för och . Vissa författare tar det absoluta värdet av summan innan de tar det högsta, men om är symmetrisk gör det ingen skillnad.

Rademacher komplexitet för en funktionsklass

Låt vara ett exempel på punkter och betrakta en funktionsklass av verkliga funktioner över . Sedan definieras den empiriska Rademacher-komplexiteten för givet

Detta kan också skrivas med den tidigare definitionen:

där anger funktionssammansättning , dvs.

Låt vara en sannolikhetsfördelning över . Rademacher- komplexiteten för funktionsklassen med avseende på för provstorlek är:

där ovanstående förväntan tas över ett identiskt oberoende fördelat (iid) sampel genererad enligt .

Intuition

Rademacher-komplexiteten appliceras vanligtvis på en funktionsklass av modeller som används för klassificering, med målet att mäta deras förmåga att klassificera punkter dragna från ett sannolikhetsutrymme under godtyckliga märkningar. När funktionsklassen är tillräckligt rik innehåller den funktioner som på lämpligt sätt kan anpassas för varje arrangemang av etiketter, simulerade av slumpmässig dragning av under förväntan, så att denna kvantitet i summan är maximerad.

Exempel

1. innehåller en enkel vektor, t.ex. . Sedan:

Detsamma gäller för varje singelhypotesklass.

2. innehåller två vektorer, t.ex. . Sedan:

Använder Rademacher-komplexiteten

Rademacher-komplexiteten kan användas för att härleda databeroende övre gränser för funktionsklassers inlärbarhet . Intuitivt är en funktionsklass med mindre Rademacher-komplexitet lättare att lära sig.

Begränsa representativiteten

I maskininlärning är det önskvärt att ha en träningsuppsättning som representerar den sanna fördelningen av vissa exempeldata . Detta kan kvantifieras med hjälp av begreppet representativitet . Beteckna med sannolikhetsfördelningen från vilken stickproven dras . Beteckna med uppsättningen hypoteser (potentiella klassificerare) och beteckna med motsvarande uppsättning felfunktioner, dvs. för varje hypotes , där är en funktion , som mappar varje träningsprov (funktioner, etikett) till felet för klassificeraren (observera att hypotes och klassificerare i detta fall är används omväxlande). Till exempel, i det fall representerar en binär klassificerare, är felfunktionen en 0–1 förlustfunktion, dvs felfunktionen returnerar 1 om klassificerar korrekt ett prov och 0 annat. Vi utelämnar indexet och skriver istället för när den underliggande hypotesen är irrelevant. Definiera:

den förväntat fel för någon felfunktion på den verkliga fördelningen ;
– det uppskattade felet för någon felfunktion på provet .

Representativiteten för provet , med avseende på och , definieras som:

Mindre representativitet är bättre, eftersom det ger ett sätt att undvika överanpassning : det betyder att det sanna felet för en klassificerare inte är mycket högre än dess uppskattade fel, och så att välja en klassificerare som har lågt uppskattat fel kommer att säkerställa att det sanna felet också är låg. Observera dock att begreppet representativitet är relativt och därför inte kan jämföras mellan olika urval.

Den förväntade representativiteten för ett urval kan ovan avgränsas av Rademacher-komplexiteten för funktionsklassen:

Avgränsning av generaliseringsfelet

När Rademacher-komplexiteten är liten är det möjligt att lära sig hypotesklassen H med hjälp av empirisk riskminimering .

Till exempel, (med binär felfunktion), för varje , med sannolikhet minst , för varje hypotes :

Begränsar Rademacher-komplexiteten

Eftersom mindre Rademacher-komplexitet är bättre är det användbart att ha övre gränser för Rademacher-komplexiteten för olika funktionsuppsättningar. Följande regler kan användas för att övergränsa Rademacher-komplexiteten för en mängd .

1. Om alla vektorer i översätts med en konstant vektor ändras inte Rad( A ) .

2. Om alla vektorer i multipliceras med en skalär multipliceras Rad( A ) med .

3. .

4. (Kakade & Tewari Lemma) Om alla vektorer i drivs av en Lipschitz-funktion , så multipliceras Rad( A ) (högst) med Lipschitz-konstanten för funktionen. I synnerhet, om alla vektorer i drivs av en sammandragningsmappning , så minskar Rad( A ) strikt.

5. Rademacher-komplexiteten för det konvexa skrovet av är lika med Rad( A ).

6. (Massart Lemma) Rademacher-komplexiteten hos en finit mängd växer logaritmiskt med mängdens storlek. Formellt, låt vara en uppsättning av vektorer i och låt vara medelvärdet av vektorerna i . Sedan:

I synnerhet, om är en uppsättning binära vektorer, är normen högst , så:

Gränser relaterade till VC-dimensionen

Låt vara en uppsättningsfamilj vars VC-dimension är . Det är känt att tillväxtfunktionen för är begränsad som:

för alla :

Detta betyder att för varje uppsättning med högst element, . Uppsättningsfamiljen kan betraktas som en uppsättning binära vektorer över . Att ersätta detta i Massarts lemma ger:

Med mer avancerade tekniker ( Dudleys entropigräns och Hausslers övre gräns) kan man till exempel visa att det finns en konstant så att vilken klass som helst av -indikatorfunktioner med Vapnik–Chervonenkis dimension har Rademacher-komplexitet som är övre gränsen till .

Gränser relaterade till linjära klasser

Följande gränser är relaterade till linjära operationer på – en konstant uppsättning vektorer i .

1. Definiera uppsättningen punktprodukter av vektorerna i med vektorer i enhetskulan . Sedan:

2. Definiera uppsättningen punktprodukter av vektorerna i med vektorer i enhetsbollen för 1-normen. Sedan:

Gränser relaterade till täckande siffror

Följande gräns relaterar Rademacher-komplexiteten för en mängd till dess yttre täckningsnummer – antalet bollar med en given radie vars förening innehåller . Bindningen tillskrivs Dudley.

Antag att är en uppsättning vektorer vars längd (norm) som mest är . Sedan, för varje heltal :

I synnerhet, om ligger i ett d -dimensionellt delrum av , då:

Att ersätta detta i den föregående gränsen ger följande gräns för Rademacher-komplexiteten:

Gaussisk komplexitet

Gaussisk komplexitet är en liknande komplexitet med liknande fysiska betydelser, och kan erhållas från Rademacher-komplexiteten genom att använda de slumpmässiga variablerna istället för , där är gaussiska i.id slumpvariabler med nollmedelvärde och varians 1, dvs . Gaussiska och Rademacher komplexitet är kända för att vara ekvivalenta upp till logaritmiska faktorer.

Likvärdighet mellan Rademacher och Gaussisk komplexitet



Givet en mängd så gäller det att: Där är den Gaussiska komplexiteten för A

  • Peter L. Bartlett, Shahar Mendelson (2002) Rademacher och Gaussiska komplexiteter: riskgränser och strukturella resultat . Journal of Machine Learning Research 3 463–482
  • Giorgio Gnecco, Marcello Sanguineti (2008) Approximationsfelgränser via Rademachers komplexitet . Applied Mathematical Sciences, Vol. 2, 2008, nr. 4, 153-176