ImageNet

ImageNet - projektet är en stor visuell databas utformad för användning i mjukvaruforskning för visuellt objektigenkänning . Mer än 14 miljoner bilder har kommenterats för hand av projektet för att indikera vilka objekt som är avbildade och i minst en miljon av bilderna finns även avgränsande rutor. ImageNet innehåller mer än 20 000 kategorier, med en typisk kategori, som "ballong" eller "jordgubbe", bestående av flera hundra bilder. Databasen med annoteringar av tredje parts bildadresser är fritt tillgänglig direkt från ImageNet, även om de faktiska bilderna inte ägs av ImageNet. Sedan 2010 driver ImageNet-projektet en årlig mjukvarutävling, ImageNet Large Scale Visual Recognition Challenge ( ILSVRC ), där programvaror tävlar om att korrekt klassificera och upptäcka objekt och scener. Utmaningen använder en "trimmad" lista med tusen icke-överlappande klasser.

Betydelse för djupinlärning

Den 30 september 2012 uppnådde ett konvolutionellt neuralt nätverk (CNN) vid namn AlexNet ett topp-5-fel på 15,3 % i ImageNet 2012 Challenge, mer än 10,8 procentenheter lägre än andraplatsens. Detta gjordes möjligt på grund av användningen av grafikprocessorer (GPU) under utbildning, en viktig ingrediens i revolutionen för djupinlärning . Enligt The Economist , "Plötsligt började folk vara uppmärksamma, inte bara inom AI-gemenskapen utan över hela teknikbranschen som helhet."

2015 överträffades AlexNet av Microsofts mycket djupa CNN med över 100 lager, som vann ImageNet 2015-tävlingen.

Databasens historik

AI-forskaren Fei-Fei Li började arbeta med idén till ImageNet 2006. Vid en tidpunkt då den mesta AI-forskningen fokuserade på modeller och algoritmer ville Li utöka och förbättra den data som fanns tillgänglig för att träna AI-algoritmer. 2007 träffade Li Princeton-professorn Christiane Fellbaum , en av skaparna av WordNet , för att diskutera projektet. Som ett resultat av detta möte fortsatte Li att bygga ImageNet med utgångspunkt från WordNets orddatabas och med många av dess funktioner.

Som biträdande professor vid Princeton samlade Li ett team av forskare för att arbeta med ImageNet-projektet. De använde Amazon Mechanical Turk för att hjälpa till med klassificeringen av bilder.

De presenterade sin databas för första gången som en affisch vid 2009 års konferens om datorseende och mönsterigenkänning ( CVPR) i Florida.

Datauppsättning

ImageNet crowdsourcer sin annoteringsprocess. Anteckningar på bildnivå indikerar närvaron eller frånvaron av en objektklass i en bild, till exempel "det finns tigrar i den här bilden" eller "det finns inga tigrar i den här bilden". Anteckningar på objektnivå ger en begränsningsram runt den (synliga delen av det) angivna objektet. ImageNet använder en variant av det breda WordNet- schemat för att kategorisera objekt, utökat med 120 kategorier av hundraser för att visa upp en finkornig klassificering. En nackdel med WordNet-användning är att kategorierna kan vara mer "förhöjda" än vad som skulle vara optimalt för ImageNet: "De flesta människor är mer intresserade av Lady Gaga eller iPod Mini än i denna sällsynta typ av diplodocus . " [ förtydligande behövs ] 2012 var ImageNet världens största akademiska användare av Mechanical Turk . Den genomsnittliga arbetaren identifierade 50 bilder per minut.

Delmängder av datamängden

Det finns olika delmängder av ImageNet-datauppsättningen som används i olika sammanhang. En av de mest använda undergrupperna av ImageNet är "ImageNet Large Scale Visual Recognition Challenge (ILSVRC) 2012-2017 bildklassificering och lokaliseringsdatauppsättning". Detta kallas även i forskningslitteraturen ImageNet-1K eller ILSVRC2017, vilket återspeglar den ursprungliga ILSVRC-utmaningen som involverade 1 000 klasser. ImageNet-1K innehåller 1 281 167 träningsbilder, 50 000 valideringsbilder och 100 000 testbilder. Den fullständiga ursprungliga datamängden kallas ImageNet-21K. ImageNet-21k innehåller 14 197 122 bilder uppdelade i 21 841 klasser. Vissa tidningar avrundar detta och döper det till ImageNet-22k.

Historik om ImageNet-utmaningen

Felfrekvenshistorik på ImageNet (visar bästa resultat per lag och upp till 10 anmälningar per år)

ILSVRC syftar till att "följa i fotspåren" av den mindre skala PASCAL VOC-utmaningen, etablerad 2005, som endast innehöll cirka 20 000 bilder och tjugo objektklasser. För att "demokratisera" ImageNet föreslog Fei-Fei Li PASCAL VOC-teamet ett samarbete, med början 2010, där forskarlag skulle utvärdera sina algoritmer på den givna datamängden och tävla om att uppnå högre noggrannhet på flera visuella igenkänningsuppgifter.

Den resulterande årliga tävlingen är nu känd som ImageNet Large Scale Visual Recognition Challenge (ILSVRC). ILSVRC använder en "trimmad" lista med endast 1000 bildkategorier eller "klasser", inklusive 90 av de 120 hundraser som klassificeras av det fullständiga ImageNet-schemat. 2010-talet såg dramatiska framsteg inom bildbehandling. Runt 2011 var en bra ILSVRC klassificering topp-5 felfrekvens 25%. Under 2012 uppnådde ett djupt konvolutionellt neuralt nät kallat AlexNet 16 %; under de kommande åren sjönk felfrekvensen i topp-5 till några procent. Medan 2012 års genombrott "kombinerade delar som alla fanns där tidigare", markerade den dramatiska kvantitativa förbättringen starten på en branschomfattande artificiell intelligensboom. År 2015 rapporterade forskare vid Microsoft att deras CNN:er översteg mänsklig förmåga vid de smala ILSVRC-uppgifterna. Men som en av utmaningens organisatörer, Olga Russakovsky , påpekade 2015, behöver programmen bara identifiera bilder som tillhörande en av tusen kategorier; människor kan känna igen ett större antal kategorier och kan också (till skillnad från programmen) bedöma sammanhanget för en bild.

År 2014 deltog mer än femtio institutioner i ILSVRC. Under 2017 hade 29 av 38 tävlande lag mer än 95 % träffsäkerhet. 2017 uppgav ImageNet att det skulle rulla ut en ny, mycket svårare utmaning 2018 som innebär att klassificera 3D-objekt med naturligt språk. Eftersom det är dyrare att skapa 3D-data än att kommentera en redan existerande 2D-bild, förväntas datasetet vara mindre. Tillämpningarna av framsteg på detta område skulle sträcka sig från robotnavigering till förstärkt verklighet .

Bias i ImageNet

En studie av historien om de multipla lagren ( taxonomi , objektklasser och märkning) av ImageNet och WordNet 2019 beskrev hur partiskhet är djupt inbäddad i de flesta klassificeringsmetoder för alla typer av bilder. ImageNet arbetar för att ta itu med olika källor till partiskhet.

Se även

externa länkar