Skottövergångsdetektering

Skottövergångsdetektering (eller helt enkelt skottdetektering ) även kallad skärdetektering är ett forskningsområde för videobehandling . Dess ämne är den automatiska detekteringen av övergångar mellan bilder i digital video med syftet att tidssegmentera videor.

Använda sig av

Detektering av skottövergång används för att dela upp en film i grundläggande tidsenheter som kallas skott ; ett skott är en serie sammanhängande på varandra följande bilder tagna kontinuerligt av en enda kamera och representerar en kontinuerlig åtgärd i tid och rum.

Denna operation är till stor nytta i programvara för efterproduktion av videor. Det är också ett grundläggande steg för automatiserad indexering och innehållsbaserad videohämtning eller sammanfattningsapplikationer som ger effektiv tillgång till enorma videoarkiv, t.ex. kan en applikation välja en representativ bild från varje scen för att skapa en visuell översikt över hela filmen och, genom att bearbeta sådana index kan en sökmotor bearbeta sökobjekt som "visa mig alla filmer där det finns en scen med ett lejon i."

Klippdetektering kan inte göra något som en mänsklig redaktör inte kunde göra manuellt, men det är fördelaktigt eftersom det sparar tid. Dessutom, på grund av den ökade användningen av digital video och följaktligen i betydelsen av de tidigare nämnda indexeringsapplikationerna, är den automatiska skärningsdetekteringen mycket viktig nuförtiden.

Grundläggande tekniska termer

En abrupt övergång .
Upplösningen blandar ett skott gradvis i ett annat med en genomskinlig effekt .

Förenklat handlar cut-detektion om att hitta positionerna i en video genom att en scen ersätts av en annan med annat visuellt innehåll. Tekniskt sett används följande termer:

En digital video består av ramar som presenteras för betraktarens öga i snabb följd för att skapa intryck av rörelse. "Digital" betyder i detta sammanhang både att en enskild bildruta består av pixlar och att datan är närvarande som binär data , så att den kan bearbetas med en dator. Varje bildruta i en digital video kan identifieras unikt med dess ramindex , ett serienummer.

En bild är en sekvens av bilder som tas oavbrutet av en kamera. Det finns flera filmövergångar som vanligtvis används vid filmredigering för att ställa intill varandra liggande bilder; I samband med skottövergångsdetektering är de vanligtvis grupperade i två typer:

  • Abrupt Transitions - Detta är en plötslig övergång från ett skott till ett annat, dvs en bild tillhör den första bilden, nästa bild tillhör den andra bilden. De är också kända som hårda snitt eller helt enkelt snitt.
  • Gradvisa övergångar - I denna typ av övergångar kombineras de två bilderna med hjälp av kromatiska, rumsliga eller rumsliga kromatiska effekter som gradvis ersätter en bild av en annan. Dessa är också ofta kända som mjuka övergångar och kan vara av olika typer, t.ex. torkdukar , löser upp , bleknar ...

"Att upptäcka ett snitt" betyder att läget för ett snitt uppnås; mer exakt erhålls ett hårt snitt som "hårt snitt mellan ram i och ram i+1", ett mjukt snitt som "mjukt snitt från ram i till ram j".

En övergång som detekteras korrekt kallas en träff , ett snitt som finns där men inte upptäckts kallas en missad träff och en position där mjukvaran antar ett snitt, men där det faktiskt inte finns något snitt, kallas en falsk träff .

En introduktion till filmredigering och en uttömmande lista över övergångstekniker finns på filmredigering .

Storleken av problemet

Även om skärningsdetektering verkar vara en enkel uppgift för en människa, är det en icke-trivial uppgift för datorer. Klippdetektering skulle vara ett trivialt problem om varje bildruta i en video berikades med ytterligare information om när och med vilken kamera den togs. Möjligen kommer ingen algoritm för skärdetektering någonsin att kunna detektera alla skärningar med säkerhet, om den inte är försedd med kraftfull artificiell intelligens. [ citat behövs ]

Medan de flesta algoritmer uppnår bra resultat med hårda snitt, misslyckas många med att känna igen mjuka snitt. Hårda snitt går vanligtvis ihop med plötsliga och omfattande förändringar i det visuella innehållet medan mjuka snitt har långsamma och gradvisa förändringar. En människa kan kompensera denna brist på visuell mångfald med att förstå meningen med en scen. Medan en dator antar att en svart linje som torkar bort ett skott är "bara ett annat vanligt föremål som rör sig långsamt genom den pågående scenen", förstår en person att scenen slutar och ersätts av en svart skärm.

Metoder

Varje metod för skärdetektering fungerar enligt en tvåfasprincip:

  1. Poängsättning – Varje par på varandra följande bildrutor i en digital video ges en viss poäng som representerar likheten/olikheten mellan dem.
  2. Beslut – Alla tidigare beräknade poäng utvärderas och ett snitt upptäcks om poängen anses vara hög.

Denna princip är felbenägen. För det första, eftersom även mindre överskridanden av tröskelvärdet ger en träff, måste det säkerställas att fas ett sprider värden brett för att maximera medelskillnaden mellan poängen för "cut" och "no cut". För det andra måste tröskeln väljas med omsorg; vanligtvis kan användbara värden erhållas med statistiska metoder.

Skärdetektering. (1) Hit : ett detekterat hårt snitt. (2) Missad träff : ett mjukt snitt ( upplösning ), som inte upptäcktes. (3) Falsk träff : ett enda mjukt snitt som felaktigt tolkas som två olika hårda snitt.

Poängsättning

Det finns många möjliga poäng som används för att komma åt skillnaderna i det visuella innehållet; några av de vanligaste är:

  • Summan av absoluta skillnader (SAD). Detta är både den mest uppenbara och enklaste algoritmen av alla: De två på varandra följande bildrutorna jämförs pixel för pixel, och summerar de absoluta värdena för skillnaderna mellan varje två motsvarande pixlar. Resultatet är ett positivt tal som används som poäng. SAD reagerar mycket känsligt på även mindre förändringar inom en scen: snabba kamerarörelser, explosioner eller den enkla tändningen av ett ljus i en tidigare mörk scen resulterar i falska träffar. Å andra sidan reagerar SAD knappt på mjuka skärsår alls. Ändå används SAD ofta för att producera en grundläggande uppsättning "möjliga träffar" eftersom den upptäcker alla synliga hårda skär med största sannolikhet.
  • Histogramskillnader (HD). Histogramskillnader är mycket lik Summan av absoluta skillnader. Skillnaden är att HD beräknar skillnaden mellan histogrammen för två på varandra följande ramar; ett histogram är en tabell som för varje färg inom en ram innehåller antalet pixlar som är skuggade i den färgen. HD är inte lika känsligt för mindre förändringar inom en scen som SAD och ger därför mindre falska träffar. Ett stort problem med HD är att två bilder kan ha exakt samma histogram medan det visade innehållet skiljer sig extremt, t.ex. kan en bild av havet och en strand ha samma histogram som en av ett majsfält och himlen. HD ger ingen garanti för att den känner igen hårda snitt.
  • Kantändringsförhållande (ECR). ECR försöker jämföra det faktiska innehållet i två ramar. Den omvandlar båda ramarna till kantbilder , dvs den extraherar de troliga konturerna av objekt i bilderna (se kantdetektering för detaljer). Efteråt jämför den dessa kantbilder med hjälp av dilatation för att beräkna sannolikheten för att den andra ramen innehåller samma objekt som den första bilden. ECR är en av de bäst presterande algoritmerna för poängsättning. Den reagerar mycket känsligt på hårda skärsår och kan av naturen upptäcka många mjuka skärsår. I sin grundläggande form kan inte ens ECR upptäcka mjuka snitt som våtservetter eftersom den betraktar de intonade föremålen som vanliga föremål som rör sig genom scenen. Ändå kan ECR utökas manuellt för att känna igen speciella former av mjuka snitt.

Slutligen kan en kombination av två eller flera av dessa poäng förbättra prestandan.

Beslut

I beslutsfasen används vanligtvis följande tillvägagångssätt:

  • Fast tröskel – I detta tillvägagångssätt jämförs poängen med en tröskel som sattes tidigare och om poängen är högre än tröskeln deklareras ett snitt.
  • Adaptiv tröskel – I detta tillvägagångssätt jämförs poängen med en tröskel som tar hänsyn till olika poäng i videon för att anpassa tröskeln till egenskaperna för den aktuella videon. Liksom i det föregående fallet, om poängen är högre än motsvarande tröskel deklareras ett snitt.
  • Maskininlärning - Maskininlärningstekniker kan också tillämpas på beslutsprocessen.

Kosta

Alla ovanstående algoritmer är kompletta i O(n) — det vill säga de körs i linjär tid — där n är antalet bildrutor i ingångsvideon. Algoritmerna skiljer sig i en konstant faktor som bestäms mest av videons bildupplösning .

Åtgärder för kvalitet

Vanligtvis används följande tre mått för att mäta kvaliteten på en skärningsdetekteringsalgoritm:

  • Återkallelse är sannolikheten att ett befintligt snitt kommer att upptäckas:
  • Precision är sannolikheten för att ett antaget snitt faktiskt är ett snitt:
  • F1 är ett kombinerat mått som resulterar i högt värde om, och endast om, både precision och återkallelse resulterar i höga värden:


Symbolerna står för: C , antalet korrekt detekterade snitt (" korrekta träffar"), M , antalet ej detekterade snitt (" m issed hits") och F , antalet felaktigt detekterade klipp (" felträffar" ) "). Alla dessa mått är matematiska mått, dvs de levererar värden mellan 0 och 1. Grundregeln är: ju högre värde, desto bättre presterar algoritmen.

Riktmärken

Jämförelse av riktmärken
Benchmark videoklipp Timmar Ramar Skottövergångar Deltagare år
TRECVid 12 - 42 4,8 - 7,5 545 068 - 744 604 2090 - 4806 57 2001 - 2007
MSU SBD 31 21.45 1 900 000+ 10883 7 2020 - 2021

TRECVid SBD Benchmark 2001-2007

Automatisk skottövergångsdetektering var ett av aktivitetsspåren inom den årliga TRECVid benchmarkingövningen från 2001 till 2007. Det fanns 57 algoritmer från olika forskargrupper. Beräkningar av F-poäng utfördes för varje algoritm på en datauppsättning, som fylldes på årligen.

Toppforskargrupper
Grupp F poäng
Bearbetningshastighet (jämfört med realtid)
Öppen källa Använda mått och tekniker
Tsinghua U. 0,897 ×0,23 Nej



Genomsnitt av pixelintensiteter Standardavvikelse för pixelintensiteter Färghistogram Pixelvis skillnad Rörelsevektor
NICTA 0,892 ×2,30 Nej Maskininlärning
IBM Research 0,876 ×0,30 Nej


Färghistogram Lokaliserade kanter riktning histogram Grånivå Miniatyrer jämförelse Ramluminans

MSU SBD Benchmark 2020-2021

Benchmarken har jämfört 6 metoder på mer än 120 videor från RAI- och MSU CC-datauppsättningar med olika typer av scenändringar, av vilka några lades till manuellt. Författarna konstaterar att huvuddraget i detta riktmärke är komplexiteten hos skottövergångar i datasetet. För att bevisa det beräknar de SI/TI-mått för bilder och jämför det med andra offentligt tillgängliga datauppsättningar.

Toppalgoritmer
Algoritm F poäng
Bearbetningshastighet (FPS)
Öppen källa Använda mått och tekniker
Saeid Dadkhah 0,797 86 Ja
Färghistogram Adaptiv tröskel
Max Reimann 0,787 76 Ja

SVM för skärningar Neurala nätverk för gradvisa övergångar Färghistogram
VQMT 0,777 308 Nej

Kanter histogram Rörelsekompensation Färghistogram
PySceneDetect 0,776 321 Ja Ramens intensitet
FFmpeg 0,772 165 Ja Färghistogram