Visuell beskrivning

I datorseende är visuella deskriptorer eller bilddeskriptorer beskrivningar av de visuella egenskaperna hos innehållet i bilder , videor eller algoritmer eller applikationer som producerar sådana beskrivningar. De beskriver elementära egenskaper som formen , färgen , strukturen eller rörelsen , bland annat.

Introduktion

Som ett resultat av den nya kommunikationstekniken och den massiva användningen av Internet i vårt samhälle ökar mängden audiovisuell information tillgänglig i digitalt format avsevärt. Därför har det varit nödvändigt att designa några system som gör att vi kan beskriva innehållet i flera typer av multimediainformation för att kunna söka och klassificera dem.

De audiovisuella deskriptorerna ansvarar för innehållsbeskrivningen. Dessa beskrivningar har god kunskap om de objekt och händelser som finns i en video, bild eller ljud och de tillåter snabba och effektiva sökningar av det audiovisuella innehållet.

Detta system kan jämföras med sökmotorerna för textinnehåll. Även om det är säkert, att det är relativt lätt att hitta text med en dator, är det mycket svårare att hitta konkreta ljud- och videodelar. Föreställ dig till exempel någon som letar efter en scen med en lycklig person. Lyckan är en känsla och det är inte tydligt dess form, färg och texturbeskrivning i bilder.

Beskrivningen av det audiovisuella innehållet är inte en ytlig uppgift och den är väsentlig för en effektiv användning av denna typ av arkiv. Standardiseringssystemet som hanterar audiovisuella deskriptorer är MPEG-7 ( Motion Picture Expert Group - 7 ) .

Typer

Deskriptorer är det första steget för att ta reda på sambandet mellan pixlar som finns i en digital bild och vad människor minns efter att ha observerat en bild eller en grupp bilder efter några minuter.

Visuella beskrivningar är indelade i två huvudgrupper:

Allmän informationsbeskrivning: innehåller lågnivådeskriptorer som ger en beskrivning av färg, form, regioner , texturer och rörelse.
Specifika domäninformationsbeskrivningar: ger information om objekt och händelser på scenen. Ett konkret exempel skulle vara ansiktsigenkänning .

Allmän informationsbeskrivning

Allmän informationsbeskrivning består av en uppsättning deskriptorer som täcker olika grundläggande och elementära funktioner som: färg, textur, form, rörelse, plats och andra. Denna beskrivning genereras automatiskt med hjälp av signalbehandling .

Färg

Det är den mest grundläggande kvaliteten på visuellt innehåll. Fem verktyg är definierade för att beskriva färg. De tre första verktygen representerar färgfördelningen och de sista beskriver färgrelationen mellan sekvenser eller grupper av bilder :

Dominant färgdeskriptor (DCD)
Skalbar färgdeskriptor (SCD)
Färgstrukturdeskriptor (CSD)
Färglayoutbeskrivning (CLD)
Group of frame (GoF) eller group-of-pictures (GoP)

Textur

Det är en viktig egenskap för att beskriva en bild. Texturdeskriptorerna karakteriserar bildtexturer eller regioner. De observerar regionhomogeniteten och histogrammen för dessa regiongränser. Uppsättningen av deskriptorer bildas av:

Homogen texturdeskriptor (HTD)
Texturbläddringsbeskrivning (TBD)
Kanthistogrambeskrivning (EHD)

Form

Den innehåller viktig semantisk information på grund av människans förmåga att känna igen objekt genom deras form. Denna information kan dock bara extraheras med hjälp av en segmentering som liknar den som det mänskliga visuella systemet implementerar. Nuförtiden är ett sådant segmenteringssystem inte tillgängligt ännu, men det finns en serie algoritmer som anses vara en bra approximation. Dessa beskrivningar beskriver regioner, konturer och former för 2D- bilder och för 3D -volymer. Formbeskrivningarna är följande :

Regionbaserad formbeskrivning (RSD)
Konturbaserad formdeskriptor (CSD)
3D-formbeskrivning (3D SD)

Rörelse

Det definieras av fyra olika deskriptorer som beskriver rörelse i videosekvens . Rörelse är relaterad till objektets rörelse i sekvensen och till kamerarörelsen . Den sista informationen tillhandahålls av fångstenheten, medan resten implementeras med hjälp av bildbehandling . Beskrivningsuppsättningen är följande:

Rörelseaktivitetsbeskrivning (MAD)
Kamerarörelsedeskriptor (CMD)
Rörelsebanadeskriptor (MTD)
Vridning och parametrisk rörelsedeskriptor (WMD och PMD)

Plats

Elements plats i bilden används för att beskriva element i den rumsliga domänen. Dessutom kan element också lokaliseras i den temporala domänen:

Region locator descriptor (RLD)
Spatio temporal locator descriptor (STLD)

Specifika domäninformationsbeskrivningar

Dessa deskriptorer, som ger information om objekt och händelser i scenen, är inte lätta att extrahera, ännu mer när extraheringen ska göras automatiskt. Ändå kan de bearbetas manuellt.

Som nämnts tidigare är ansiktsigenkänning ett konkret exempel på en applikation som försöker få denna information automatiskt.

Deskriptorapplikationer

Bland alla applikationer är de viktigaste:

Multimedia dokument sökmotorer och klassificerare.
Digitalt bibliotek : visuella deskriptorer tillåter en mycket detaljerad och konkret sökning av vilken video eller bild som helst med hjälp av olika sökparametrar. Till exempel sökning av filmer där en känd skådespelare dyker upp, sökning av videor som innehåller Everestberget, etc.
Personlig elektronisk nyhetstjänst.
Möjlighet till automatisk anslutning till en TV-kanal som sänder en fotbollsmatch, till exempel när en spelare närmar sig målområdet.
Kontroll och filtrering av konkret audiovisuellt innehåll, som våldsamt eller pornografiskt material. Dessutom auktorisering för visst multimediainnehåll .

Se även

BS Manjunath (redaktör), Philippe Salembier (redaktör) och Thomas Sikora (redaktör): Introduktion till MPEG-7: Gränssnitt för multimediainnehållsbeskrivning . Wiley & Sons, april 2002 - ISBN 0-471-48678-7