Samträning

Co-training är en maskininlärningsalgoritm som används när det bara finns små mängder märkt data och stora mängder omärkt data . En av dess användningsområden är textutvinning för sökmotorer . Den introducerades av Avrim Blum och Tom Mitchell 1998.

Algoritm design

Samträning är en semi-övervakad inlärningsteknik som kräver två vyer av data. Det förutsätter att varje exempel beskrivs med två olika uppsättningar funktioner som ger kompletterande information om instansen. I idealfallet är de två vyerna villkorligt oberoende (dvs. de två funktionsuppsättningarna för varje instans är villkorligt oberoende givet klassen) och varje vy är tillräcklig (dvs klassen för en instans kan förutsägas exakt utifrån varje vy ensam). Samträning lär sig först en separat klassificerare för varje vy med hjälp av eventuella märkta exempel. De mest säkra förutsägelserna för varje klassificerare på omärkta data används sedan för att iterativt konstruera ytterligare märkt träningsdata .

Det ursprungliga samträningsdokumentet beskrev experiment med hjälp av samträning för att klassificera webbsidor till "hemsida för akademisk kurs" eller inte; klassificeraren kategoriserade korrekt 95 % av 788 webbsidor med endast 12 märkta webbsidor som exempel. Uppsatsen har citerats över 1 000 gånger och fick 10 års pris för bästa papper vid den 25:e internationella konferensen om maskininlärning ( ICML 2008 ), en välkänd datavetenskapskonferens .

Krogel och Scheffer visade 2004 att samträning endast är fördelaktigt om datamängderna är oberoende; det vill säga om en av klassificerarna korrekt märker en datapunkt som den andra klassificeraren tidigare felklassificerat. Om klassificerarna är överens om alla omärkta data, det vill säga de är beroende, skapar inte märkning av data ny information. I ett experiment där beroendet av klassificerarna var större än 60 % försämrades resultaten.

Används

Samträning har använts för att klassificera webbsidor med hjälp av texten på sidan som en vy och ankartexten för hyperlänkar på andra sidor som pekar på sidan som den andra vyn. Enkelt uttryckt kan texten i en hyperlänk på en sida ge information om sidan den länkar till. Samträning kan fungera på "omärkt" text som inte redan har klassificerats eller taggats , vilket är typiskt för texten som visas på webbsidor och i e-postmeddelanden. Enligt Tom Mitchell, "De funktioner som beskriver en sida är orden på sidan och länkarna som pekar till den sidan. Samträningsmodellerna använder båda klassificerare för att bestämma sannolikheten för att en sida kommer att innehålla data som är relevanta för sökkriterierna. ." Text på webbplatser kan bedöma relevansen av länkklassificerare, därav termen "samträning". Mitchell hävdar att andra sökalgoritmer är 86 % korrekta, medan samträning är 96 % korrekt.

Samträning användes på FlipDog.com, en webbplats för jobbsökning, och av det amerikanska arbetsdepartementet, för en katalog över fortbildning och distansutbildning. Den har använts i många andra applikationer, inklusive statistisk analys och visuell detektion.

Anteckningar

externa länkar