Caltech 101

Caltech 101 är en datauppsättning av digitala bilder skapad i september 2003 och sammanställd av Fei-Fei Li, Marco Andreetto, Marc 'Aurelio Ranzato och Pietro Perona vid California Institute of Technology . Den är avsedd att underlätta datorseende forskning och tekniker och är mest tillämpbar på tekniker som involverar klassificering och kategorisering av bildigenkänning . Caltech 101 innehåller totalt 9 146 bilder, uppdelade mellan 101 olika objektkategorier ( ansikten , klockor , myror , pianon , etc.) och en bakgrundskategori. Med bilderna finns en uppsättning kommentarer som beskriver konturerna av varje bild, tillsammans med ett Matlab -skript för visning.

Syfte

De flesta algoritmer för datorseende och maskininlärning fungerar genom att träna på exempelingångar. De kräver en stor och varierad uppsättning träningsdata för att fungera effektivt. tränades ansiktsdetektionsmetoden i realtid som användes av Paul Viola och Michael J. Jones på 4 916 handmärkta ansikten.

Att beskära, ändra storlek och handmarkera intressanta platser är tråkigt och tidskrävande.

Historiskt sett har de flesta datamängder som används i datorseendeforskning skräddarsytts för de specifika behoven i det projekt som arbetas med. Ett stort problem med att jämföra datorseendetekniker är det faktum att de flesta grupper använder sina egna datamängder. Varje uppsättning kan ha olika egenskaper som gör rapporterade resultat från olika metoder svårare att jämföra direkt. Till exempel kan skillnader i bildstorlek, bildkvalitet, relativa placering av objekt i bilderna och nivå av ocklusion och rörlighet leda till varierande resultat.

Caltech 101-datauppsättningen syftar till att lindra många av dessa vanliga problem.

  • Bilderna beskärs och storleksändras.
  • Många kategorier är representerade, vilket passar både enkla och multipla klassigenkänningsalgoritmer.
  • Detaljerade objektkonturer är markerade.
  • Caltech 101 är tillgänglig för allmänt bruk och fungerar som en gemensam standard för att jämföra olika algoritmer utan fördomar på grund av olika datamängder.

En nyligen genomförd studie visar dock att tester baserade på okontrollerade naturliga bilder (som Caltech 101-datauppsättningen) kan vara allvarligt missvisande och potentiellt styra framstegen i fel riktning.

Datauppsättning

Bilder

Caltech 101-datauppsättningen består av totalt 9 146 bilder, uppdelade på 101 olika objektkategorier, samt en extra bakgrunds-/klutterkategori.

Varje objektkategori innehåller mellan 40 och 800 bilder. Vanliga och populära kategorier som ansikten tenderar att ha ett större antal bilder än andra.

Varje bild är cirka 300x200 pixlar. Bilder av orienterade föremål som flygplan och motorcyklar speglades för att vara vänster till högerjusterade och vertikalt orienterade strukturer som byggnader roterades för att vara utanför axeln.

Anteckningar

En uppsättning kommentarer tillhandahålls för varje bild. Varje uppsättning anteckningar innehåller två delar av information: den allmänna begränsningsrutan där objektet är placerat och en detaljerad, mänskligt specificerad kontur som omsluter objektet.

Ett Matlab-skript medföljer kommentarerna. Den laddar en bild och dess motsvarande anteckningsfil och visar dem som en Matlab-figur.

Används

Caltech 101-datauppsättningen användes för att träna och testa flera datorseendeigenkänning och klassificeringsalgoritmer. Det första papper som använde Caltech 101 var en inkrementell bayesiansk metod för inlärning i ett slag, ett försök att klassificera ett objekt med bara några få exempel, genom att bygga på tidigare kunskaper om andra klasser.

Caltech 101-bilderna, tillsammans med annoteringarna, användes för ytterligare ett one-shot inlärningsuppsats på Caltech.

Andra Computer Vision-dokument som rapporterar med hjälp av Caltech 101-datauppsättningen inkluderar:

  • Formmatchning och objektigenkänning med hjälp av korrespondens med låg distorsion. Alexander C. Berg, Tamara L. Berg, Jitendra Malik . CVPR 2005
  • Pyramid Match Kernel: Diskriminerande klassificering med uppsättningar av bildfunktioner. K. Grauman och T. Darrell. Internationell konferens om datorseende (ICCV), 2005
  • Kombinera generativa modeller och Fisher-kärnor för objektklassigenkänning. Holub, AD. Welling, M. Perona, P. International Conference on Computer Vision (ICCV), 2005
  • Objektigenkänning med funktioner inspirerade av Visual Cortex. T. Serre, L. Wolf och T. Poggio. Proceedings of 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR 2005), IEEE Computer Society Press, San Diego, juni 2005.
  • SVM-KNN: Discriminative Nearest Neighbor Classification for Visual Category Recognition. Hao Zhang, Alex Berg, Michael Maire, Jitendra Malik . CVPR, 2006
  • Beyond Bags of Features: Spatial Pyramid Matchning för att känna igen naturliga scenkategorier. Svetlana Lazebnik , Cordelia Schmid och Jean Ponce. CVPR, 2006
  • Empirisk studie av flerskaliga filterbanker för objektkategorisering. MJ Mar韓-Jim閚ez och N. P閞ez de la Blanca. december 2005
  • Multiclass objektigenkänning med glesa, lokaliserade funktioner. Jim Mutch och David G. Lowe., sid. 11-18, CVPR 2006, IEEE Computer Society Press, New York, juni 2006
  • Använda beroende regioner eller objektkategorisering i ett generativt ramverk. G. Wang, Y. Zhang och L. Fei-Fei. IEEE Comp. Vis. Patt. Recog. 2006

Analys och jämförelse

Fördelar

Caltech 101 har flera fördelar jämfört med andra liknande datamängder:

  • Enhetlig storlek och presentation:
    • Nästan alla bilder inom varje kategori är enhetliga i bildstorlek och i den relativa positionen för intresseobjekt. Caltech 101-användare behöver i allmänhet inte beskära eller skala bilder innan de kan användas.
  • Låg nivå av skräp/ocklusion:
    • Algoritmer som rör igenkänning fungerar vanligtvis genom att lagra funktioner som är unika för objektet. De flesta bilder som tagits har dock olika grader av bakgrundsbeklädnad, vilket innebär att algoritmer kan byggas felaktigt.
  • Detaljerade anteckningar

Svagheter

Svagheter i Caltech 101-datauppsättningen kan vara medvetna avvägningar, men andra är begränsningar av datamängden. Papper som enbart förlitar sig på Caltech 101 avvisas ofta.

Svagheter inkluderar:

  • Datauppsättningen är för ren:
    • Bilderna är mycket enhetliga i presentationen, justerade från vänster till höger och vanligtvis inte tilltäppta. Som ett resultat är bilderna inte alltid representativa för praktiska indata som algoritmen senare kan förvänta sig att se. Under praktiska förhållanden är bilder mer röriga, tilltäppta och visar större varians i relativ position och orientering av intresseobjekt. Enhetligheten gör att begreppen kan härledas med hjälp av genomsnittet av en kategori, vilket är orealistiskt.
  • Begränsat antal kategorier:
    • Caltech 101-datauppsättningen representerar bara en liten del av möjliga objektkategorier.
  • Vissa kategorier innehåller några bilder:
    • Vissa kategorier är inte representerade lika bra som andra, med så få som 31 bilder.
    • Detta betyder att . Antalet bilder som används för träning måste vara mindre än eller lika med 30, vilket inte är tillräckligt för alla ändamål.
  • Aliasing och artefakter på grund av manipulation:
    • Vissa bilder har roterats och skalats från sin ursprungliga orientering och lider av en viss mängd artefakter eller aliasing .

Andra datamängder

  • Caltech 256 är en annan bilddatauppsättning, skapad 2007. Den är en efterföljare till Caltech 101. Den är avsedd att åtgärda några av svagheterna med Caltech 101. Sammantaget är det en svårare datamängd än Caltech 101, men den lider av jämförbara problem. Det inkluderar
    • 30 607 bilder, som täcker ett större antal kategorier
    • Minsta antal bilder per kategori har höjts till 80
    • Bilderna är inte vänster-högerjusterade
    • Mer variation i bildpresentation
  • LabelMe är en öppen, dynamisk datauppsättning skapad vid MIT Computer Science and Artificial Intelligence Laboratory ( CSAIL). LabelMe tar ett annat förhållningssätt till problemet med att skapa en stor bilddatauppsättning, med olika avvägningar.
    • 106 739 bilder, 41 724 kommenterade bilder och 203 363 märkta objekt.
    • Användare kan lägga till bilder till datamängden genom uppladdning och lägga till etiketter eller kommentarer till befintliga bilder.
    • På grund av dess öppna natur har LabelMe många fler bilder som täcker ett mycket bredare omfång än Caltech 101. Men eftersom varje person bestämmer vilka bilder som ska laddas upp och hur de ska märka och kommentera varje bild, blir bilderna mindre konsekventa.
  • VOC 2008 är en europeisk satsning för att samla in bilder för benchmarking av visuella kategoriseringsmetoder. Jämfört med Caltech 101/256 samlas ett mindre antal kategorier (cirka 20). Antalet bilder i varje kategori är dock större.
  • (Overhead Imagery Research Data Set) är ett kommenterat bibliotek med bilder och verktyg. OIRDS v1.0 är sammansatt av objekt i passagerarfordon som är kommenterade i överliggande bilder. Passagerarfordon i OIRDS inkluderar bilar, lastbilar, skåpbilar etc. Utöver objektkonturerna innehåller OIRDS subjektiv och objektiv statistik som kvantifierar fordonet inom bildens sammanhang. Till exempel, subjektiva mått på bildstök, klarhet, brus och fordonsfärg ingår tillsammans med mer objektiv statistik som markprovsavstånd (GSD), tid på dagen och dag på året.
    • ~900 bilder, innehållande ~1800 kommenterade bilder
    • ~30 anteckningar per objekt
    • ~60 statistiska mått per objekt
    • Stor variation i objektsammanhang
    • Begränsat till passagerarfordon i överliggande bilder
  • MICC-Flickr 101 är en bilddatauppsättning skapad vid Media Integration and Communication Center (MICC), University of Florence, 2012. Den är baserad på Caltech 101 och är insamlad från Flickr . MICC-Flickr 101 korrigerar den största nackdelen med Caltech 101, dvs dess låga interklassvariabilitet och ger sociala kommentarer genom användartaggar. Den bygger på en standard och allmänt använd datauppsättning som består av ett hanterbart antal kategorier (101) och kan därför användas för att jämföra objektkategoriseringsprestanda i ett begränsat scenario (Caltech 101) och objektkategorisering "i det vilda" (MICC-Flickr 101) på samma 101 kategorier.

Se även

externa länkar