Feltolerans (PAC-inlärning)

Feltolerans (PAC-inlärning)

I PAC-inlärning hänvisar feltolerans till förmågan hos en algoritm att lära sig när de mottagna exemplen har skadats på något sätt. I själva verket är detta en mycket vanlig och viktig fråga eftersom det i många applikationer inte är möjligt att komma åt brusfri data. Brus kan störa inlärningsprocessen på olika nivåer: algoritmen kan ta emot data som ibland har felmärkts, eller indata kan ha en del falsk information, eller klassificeringen av exemplen kan ha förfalskats av uppsåt.

Notation och Valiant-inlärningsmodellen

Låt i det följande vara vårt -dimensionella inmatningsutrymme. Låt vara en klass av funktioner som vi vill använda för att lära oss en -värderad målfunktion definierad över . Låt vara fördelningen av indata över . Målet med en inlärningsalgoritm är att välja den bästa funktionen så att den minimerar . Låt oss anta att vi har en funktion som kan mäta komplexiteten hos . Låt vara ett orakel som, närhelst det anropas, returnerar ett exempel och dess korrekta etikett .

När inget brus korrumperar data, kan vi definiera inlärning i Valiant-inställningen :

Definition: Vi säger att är effektivt lärbar med i Valiant -inställningen om det finns en inlärningsalgoritm som har tillgång till och ett polynom så att den för alla och matar ut, i ett antal anrop till oraklet som begränsas av , en funktion som uppfyller sannolikheten minst den villkorsfel .

I det följande kommer vi att definiera inlärningsbarheten för när data har modifierats.

Klassificeringsljud

I klassificeringsbrusmodellen introduceras en brushastighet Sedan, istället för som alltid returnerar den korrekta etiketten för exempel , algoritm kan bara anropa ett felaktigt orakel som kommer att vända etiketten för med sannolikhet . Liksom i Valiant-fallet är målet med en inlärningsalgoritm att välja den bästa funktionen så att den minimerar . I applikationer är det svårt att ha tillgång till det verkliga värdet av , men vi antar att vi har tillgång till dess övre gräns . Observera att om vi tillåter brushastigheten att vara under vilken beräkningstid som helst, eftersom varje etikett inte förmedlar information om målfunktionen.

Definition: Vi säger att är effektivt lärbar med i klassificeringsbrusmodellen om det finns en inlärningsalgoritm som har tillgång till och ett polynom så att för alla , och den matar ut, i ett antal anrop till oraklet som begränsas av , en funktion som uppfyller sannolikheten minst villkoret .

Statistisk frågeinlärning

Statistical Query Learning är ett slags aktivt inlärningsproblem där inlärningsalgoritmen kan bestämma om den vill begära information om sannolikheten att en funktion korrekt etiketterar exempel och får ett svar korrekt inom en tolerans . Formellt, närhelst inlärningsalgoritmen anropar oraklet får den som återkopplingssannolikhet , så att .

Definition: Vi säger att är effektivt inlärningsbar med i den statistiska frågeinlärningsmodellen om det finns en inlärningsalgoritm som har tillgång till och polynom , och så att för någon gäller följande:

  1. kan utvärdera i tiden ;
  2. begränsas av
  3. matar ut en modell så att , i ett antal anrop till orakel avgränsat av .

Observera att konfidensparametern inte förekommer i definitionen av inlärning. Detta beror på att huvudsyftet med är att tillåta inlärningsalgoritmen en liten sannolikhet för misslyckande på grund av ett icke-representativt urval. Sedan nu alltid att uppfylla approximationskriteriet .

Den statistiska frågemodellen är strikt svagare än PAC-modellen: varje effektivt SQ-lärbar klass är effektivt PAC-lärbar i närvaro av klassificeringsbrus, men det finns effektiva PAC-lärbara problem såsom paritet som inte är effektivt SQ- lärbara .

Skadlig klassificering

I den skadliga klassificeringsmodellen genererar en motståndare fel för att förhindra inlärningsalgoritmen. Den här inställningen beskriver situationer med felskur , som kan uppstå när överföringsutrustningen under en begränsad tid inte fungerar som den ska. Formellt anropar algoritm ett orakel som returnerar ett korrekt märkt exempel ritad, som vanligt, från fördelningen över inmatningsutrymmet med sannolikheten , men den returnerar med sannolikheten ett exempel från en distribution som inte är relaterad till . Dessutom kan detta uppsåtligt valda exempel strategiskt valts av en motståndare som har kunskap om , , , eller den aktuella utvecklingen av inlärningsalgoritm.

Definition: Givet en gräns för säger vi att är effektivt inlärningsbar med i den skadliga klassificeringsmodellen, om det finns en inlärningsalgoritm som har tillgång till och ett polynom så att för någon , den matar ut, i ett antal anrop till oraklet som begränsas av , en funktion som uppfyller med sannolikhet minst villkoret .

Fel i ingångarna: ojämnt slumpmässigt attributbrus

I den oenhetliga brusmodellen för slumpmässiga attribut lär algoritmen in en boolesk funktion , ett skadligt orakel kan vända varje -th biten av exemplet oberoende med sannolikhet .

Denna typ av fel kan irreparabelt förhindra algoritmen, i själva verket gäller följande teorem:

I den olikformiga brusinställningen för slumpmässigt attribut kan en algoritm så att endast om .

Se även