Visuellt ord
Visuella ord , som används i bildhämtningssystem , hänvisar till små delar av en bild som innehåller någon form av information relaterad till funktionerna (som färg, form eller struktur), eller förändringar som sker i pixlarna som filtrering , låg -nivåfunktionsbeskrivningar ( SIFT , SURF , ...etc.).
Historia
Tillvägagångssätten för texthämtningssystem (eller IR-system för informationshämtning ), som utvecklats under 40 år, är baserade på nyckelord eller Term. Fördelen med dessa tillvägagångssätt beror särskilt på att de är effektiva och snabba. Textsökmotorer kan snabbt hitta dokument från hundratals eller miljoner (genom att använda vektorrymdmodell) . Samtidigt har texthämtningssystem en enorm framgång, standardbildhämtningssystemen (som enkel sökning efter färger, former...etc.) har ett stort antal begränsningar. Följaktligen försöker forskare dra nytta av tekniker för texthämtning för att tillämpa dem på bildhämtning . Det kan vara genom en ny typ av vision att förstå bilder som textdokument , vilket är visuella ords synsätt.
Analog text-bild
Låt oss tänka på att pixlarna i en bild, som är de minsta delarna i en digital bild (kan inte delas upp i mindre), är som bokstäverna i ett alfabetiskt språk. Sedan är en uppsättning pixlar i en bild (lappar eller pixlar) ett ord. Varje ord kan sedan omarbetas till ett morfologiskt system för att extrahera en term relaterad till det ordet. Sedan kan flera ord dela samma betydelse, vart och ett kommer att hänvisa till samma term (som på vilket språk som helst). Fler än ett ord delade samma betydelse och det tillhör samma term (har samma information). Med detta synsätt kan forskare dra nytta av tekniker för texthämtning för att tillämpa dem på bildhämtningssystem.
Visuella definitioner
Om vi tillämpar denna princip på spel måste vi hitta vad dessa ord och termer kommer att vara i våra bilder. Tanken är att försöka förstå bilderna som en samling "visuella ord".
Definition 1: Visuellt ord: det är en liten fläck på bilden (uppsättning av pixlar) som kan bära vilken typ av intressant information som helst i alla funktionsutrymmen (färgförändringar, texturförändringar ... etc.).
I allmänhet existerar visuella ord (VW) i deras funktionsutrymme med kontinuerliga värden, vilket innebär ett stort antal ord och därför ett enormt språk. Eftersom system för bildhämtning behöver använda tekniker för texthämtning som är beroende av naturliga språk och dessa har en gräns för antalet termer och ord, finns det viktiga behov av att minska antalet visuella ord.
Det finns ett antal lösningar för att lösa detta problem, en av dem är att dela in särdragsutrymmet i intervall, var och en har gemensamma egenskaper (vilka kan betraktas som samma ord), men den här lösningen har många problem, som divisionsstrategin, storleken på räckvidden i funktionsutrymmet, etc. En annan lösning som föreslås av forskare är att använda en klustringsmekanism för att klassificera och slå samman ord som bär gemensam information i ett begränsat antal termer.
Definition 2: Visuell term: det är klustringsresultatet i funktionsutrymmet (centrum av klustren), mer än en patch kan ge närmaste information i funktionsutrymmet, så vi kan betrakta det i samma term.
Eftersom termen i text (oändlighetsverbet, substantiv, artiklar ... etc.) hänvisar till många vanliga ord har samma egenskaper, den visuella termen (som dess klustringsresultat), kommer den att hänvisa till alla vanliga ord som delade samma information i funktionsutrymme.
Och om alla bilder hänvisar till samma uppsättning visuella termer kan alla bilder tala samma språk (eller visuellt språk ).
Definition 3: Visuellt språk: det är en uppsättning visuella ord och visuella termer, (vi kan betrakta de visuella termerna enbart är "Visuella ordförråden" som kommer att vara referensen och hämtningssystemet kommer att bero på det för att hämta bilder).
Och alla bilder kommer att representeras med detta visuella språk som en samling visuella ord (VW) eller vad man kan kalla det påse med visuella ord
Definition 4: Påse med visuella ord: det är en samling visuella ord som tillsammans kan ge information om bildens betydelse överhuvudtaget (eller delar av den).
Baserat på denna typ av bildrepresentation kan vi sedan använda texthämtningstekniker för att designa ett bildhämtningssystem. Men eftersom alla system för texthämtning är beroende av termer måste användarens frågebilder konverteras till en uppsättning visuella termer i systemet. Sedan kommer den att jämföra dessa visuella termer med alla visuella termer i databasen.
Se även
- Innehållsbaserad bild- och videohämtning
- Ansiktsigenkänning
- Hämtning av textinformation
- Bag-of-words modell i datorseende
externa länkar
- En hyllning till visuella ord och hur de revolutionerade datorseendet
- Bag-of-Visual-Words-föreläsning från Carnegie Mellon University
- Modell för påse med visuella ord: igenkännande av objektkategorier
- Visuell ordbaserad platsigenkänning i 3D-modeller med hjälp av DistanceAugmented Weighting