Märkt data

Märkt data är en grupp prover som har märkts med en eller flera etiketter. Märkning tar vanligtvis en uppsättning omärkta data och utökar varje del av den med informativa taggar. Till exempel kan en dataetikett indikera om ett foto innehåller en häst eller en ko, vilka ord som uttalades i en ljudinspelning, vilken typ av åtgärd som utförs i en video, vad ämnet för en nyhetsartikel är, vad det övergripande är. känslan av en tweet är, eller om en prick i en röntgen är en tumör.

Etiketter kan erhållas genom att be människor att göra bedömningar om en viss del av omärkt data. Märkt data är betydligt dyrare att få fram än rå omärkt data.

Crowdsourced märkt data

2006 satte Fei-Fei Li, meddirektör för Stanford Human-Centered AI Institute, för att förbättra modellerna och algoritmerna för artificiell intelligens för bildigenkänning genom att avsevärt förstora träningsdata . Forskarna laddade ner miljontals bilder från World Wide Web och ett team av studenter började använda etiketter för objekt på varje bild. 2007 lade Li ut datamärkningsarbetet på Amazon Mechanical Turk , en onlinemarknadsplats för digitalt ackordsarbete . De 3,2 miljoner bilderna som märktes av mer än 49 000 arbetare utgjorde grunden för ImageNet , en av de största handmärkta databaserna för konturer av objektigenkänning .

Automatiserad datamärkning

Efter att ha erhållit en märkt datauppsättning kan maskininlärningsmodeller tillämpas på data så att nya omärkta data kan presenteras för modellen och en trolig etikett kan gissas eller förutsägas för den delen av omärkt data.

Datadriven bias

Algoritmiskt beslutsfattande är föremål för programmerardriven bias såväl som datadriven bias. Träningsdata som förlitar sig på biasmärkta data kommer att resultera i fördomar och utelämnanden i en prediktiv modell , trots att maskininlärningsalgoritmen är legitim. De märkta data som används för att träna en specifik maskininlärningsalgoritm måste vara ett statistiskt representativt urval för att inte påverka resultaten. Eftersom de märkta data som är tillgängliga för att träna ansiktsigenkänningssystem inte har varit representativa för en befolkning, blir underrepresenterade grupper i de märkta uppgifterna senare ofta felklassificerade. Under 2018 visade en studie av Joy Buolamwini och Timnit Gebru att två ansiktsanalysdatauppsättningar som har använts för att träna ansiktsigenkänningsalgoritmer, IJB-A och Adience, består av 79,6 % respektive 86,2 % ljushyade människor.