Optisk musikigenkänning

Optisk musikigenkänning ( OMR ) är ett forskningsfält som undersöker hur man beräkningsmässigt läser notskrift i dokument. Målet med OMR är att lära datorn att läsa och tolka noter och producera en maskinläsbar version av den skrivna noten. När musiken har tagits digitalt kan den sparas i vanliga filformat, t.ex. MIDI (för uppspelning) och MusicXML (för sidlayout). Tidigare har den, missvisande nog, även kallats "musikoptisk teckenigenkänning ". På grund av betydande skillnader bör denna term inte längre användas.

Historia

Första publicerade digitala skanning av musik av David Prerau 1971

Optisk musikigenkänning av tryckta notblad började i slutet av 1960-talet vid Massachusetts Institute of Technology när de första bildskannrarna blev överkomliga för forskningsinstitut. På grund av det begränsade minnet hos tidiga datorer var de första försöken begränsade till endast ett fåtal musikmått. 1984 utvecklade en japansk forskargrupp från Waseda University en specialiserad robot, kallad WABOT (WAseda roBOT), som kunde läsa notbladet framför den och ackompanjera en sångare på en elektrisk orgel .

Tidig forskning inom OMR utfördes av Ichiro Fujinaga, Nicholas Carter, Kia Ng, David Bainbridge och Tim Bell. Dessa forskare utvecklade många av de tekniker som fortfarande används idag.

Den första kommersiella OMR-applikationen, MIDISCAN (nu SmartScore ), släpptes 1991 av Musitek Corporation.

Tillgången till smartphones med bra kameror och tillräcklig beräkningskraft, banade väg för mobila lösningar där användaren tar en bild med smarttelefonen och enheten direkt bearbetar bilden.

Relation till andra områden

Relation mellan optisk musikigenkänning till andra forskningsområden

Optisk musikigenkänning relaterar till andra forskningsområden, inklusive datorseende , dokumentanalys och musikinformationssökning . Det är relevant för praktiserande musiker och kompositörer som kan använda OMR-system som ett sätt att lägga in musik i datorn och på så sätt underlätta processen att komponera , transkribera och redigera musik. I ett bibliotek skulle ett OMR-system kunna göra noter sökbara och för musikforskare skulle det göra det möjligt att utföra kvantitativa musikologiska studier i stor skala.

OMR vs. OCR

Optisk musikigenkänning har ofta jämförts med optisk teckenigenkänning. Den största skillnaden är att notskrift är ett funktionellt skrivsystem. Det betyder att medan alfabetet består av väldefinierade primitiver (t.ex. stammar, anteckningshuvuden eller flaggor), är det deras konfiguration – hur de är placerade och arrangerade på staven – som avgör semantiken och hur den ska tolkas.

Den andra stora skillnaden är det faktum att även om ett OCR-system inte går längre än att känna igen bokstäver och ord, förväntas ett OMR-system också återställa musikens semantik: Användaren förväntar sig att den vertikala positionen för en ton (grafiskt koncept) översatt till tonhöjden (musikaliskt koncept) genom att tillämpa reglerna för notskrift. Observera att det inte finns någon riktig motsvarighet i textigenkänning. I analogi kan det vara lika utmanande att återställa musiken från en bild av ett notblad som att återställa HTML- källkoden från skärmdumpen på en webbplats .

Den tredje skillnaden kommer från den använda teckenuppsättningen. Även om skrivsystem som kinesiska har utomordentligt komplexa teckenuppsättningar, spänner teckenuppsättningen av primitiver för OMR över ett mycket större spektrum av storlekar, allt från små element som en prick till stora element som potentiellt sträcker sig över en hel sida som ett klammerparentes. Vissa symboler har ett nästan obegränsat utseende som slurrer, som bara definieras som mer eller mindre jämna kurvor som kan avbrytas var som helst.

Slutligen involverar notskrift allestädes närvarande tvådimensionella rumsliga relationer, medan text kan läsas som en endimensionell ström av information, när baslinjen väl är etablerad.

Tillvägagångssätt till OMR

Utdrag ur Nocturne Op. 15 , nr. 2, av Frédéric Chopin – utmaningar i optisk musikigenkänning

Processen att känna igen partitur är vanligtvis uppdelad i mindre steg som hanteras med specialiserade mönsterigenkänningsalgoritmer .

Många konkurrerande tillvägagångssätt har föreslagits där de flesta delar en pipeline-arkitektur, där varje steg i denna pipeline utför en viss operation, som att upptäcka och ta bort personallinjer innan man går vidare till nästa steg. Ett vanligt problem med det tillvägagångssättet är att fel och artefakter som gjordes i ett steg sprids genom systemet och kan påverka prestandan kraftigt. Till exempel, om stavlinjedetekteringssteget misslyckas med att korrekt identifiera existensen av musikstavarna, kommer efterföljande steg troligen att ignorera den delen av bilden, vilket leder till att information saknas i utgången.

Optisk musikigenkänning underskattas ofta på grund av problemets till synes lätta natur: Om den är försedd med en perfekt skanning av typmusik, kan den visuella igenkänningen lösas med en sekvens av ganska enkla algoritmer, såsom projektioner och mallmatchning. Processen blir dock betydligt svårare för dåliga skanningar eller handskriven musik, som många system misslyckas med att känna igen helt och hållet. Och även om alla symboler skulle ha upptäckts perfekt, är det fortfarande utmanande att återställa den musikaliska semantiken på grund av oklarheter och frekventa brott mot reglerna för notskrift (se exemplet med Chopins Nocturne). Donald Byrd och Jakob Simonsen menar att OMR är svårt eftersom modern notskrift är extremt komplex.

Donald Byrd samlade också ett antal intressanta exempel såväl som extrema exempel på notskrift som visar den stora komplexiteten i notskrift.

Utgångar från OMR-system

Typiska tillämpningar för OMR-system inkluderar skapandet av en hörbar version av musikmusiken (kallad replayability). Ett vanligt sätt att skapa en sådan version är att skapa en MIDI- fil, som kan syntetiseras till en ljudfil. MIDI-filer är dock inte kapabla att lagra gravyrinformation (hur tonerna lades ut) eller enharmonisk stavning.

Om noterna känns igen med målet att mänsklig läsbarhet (kallas omtryckbarhet), måste den strukturerade kodningen återställas, vilket inkluderar exakt information om layout och gravyr. Lämpliga format för att lagra denna information inkluderar MEI och MusicXML .

Förutom dessa två applikationer kan det också vara intressant att bara extrahera metadata från bilden eller aktivera sökning. I motsats till de två första applikationerna kan en lägre nivå av förståelse av noten vara tillräcklig för att utföra dessa uppgifter.

Allmän ram (2001)

Optical Music Recognition Architecture av Bainbridge och Bell (2001)

År 2001 publicerade David Bainbridge och Tim Bell sitt arbete om utmaningarna med OMR, där de gick igenom tidigare forskning och tog fram ett allmänt ramverk för OMR. Deras ramverk har använts av många system utvecklade efter 2001. Ramverket har fyra distinkta steg med stor tonvikt på visuell detektering av objekt. De märkte att rekonstruktionen av den musikaliska semantiken ofta utelämnades från publicerade artiklar eftersom de använda operationerna var specifika för utdataformatet.

Förfinad ram (2012)

Det allmänna ramverket för optisk musikigenkänning som föreslås av Ana Rebelo et al. under 2012

2012, Ana Rebelo et al. undersökta tekniker för optisk musikigenkänning. De kategoriserade den publicerade forskningen och förfinade OMR-pipelinen i de fyra stegen: förbearbetning, igenkänning av musiksymboler, rekonstruktion av musiknotation och slutlig representationskonstruktion. Detta ramverk blev de facto-standarden för OMR och används fortfarande idag (men ibland med något annorlunda terminologi). För varje block ger de en översikt över tekniker som används för att ta itu med det problemet. Denna publikation är den mest citerade artikeln om OMR-forskning från och med 2019.

Deep learning (sedan 2016)

Med tillkomsten av djupinlärning har många datorseendeproblem skiftat från imperativ programmering med handgjorda heuristik och funktionsteknik till maskininlärning. Inom optisk musikigenkänning har personalbearbetningsstadiet, musikobjektdetektionssteget, såväl som notationsrekonstruktionsstadiet sett framgångsrika försök att lösa dem med djup inlärning.

Även helt nya tillvägagångssätt har föreslagits, inklusive att lösa OMR på ett heltäckande sätt med sekvens-till-sekvens-modeller, som tar en bild av noter och direkt producerar den erkända musiken i ett förenklat format.

Anmärkningsvärda vetenskapliga projekt

Utmaning för att avlägsna personal

För system som utvecklats före 2016 utgjorde upptäckt och avlägsnande av personal ett betydande hinder. En vetenskaplig tävling anordnades för att förbättra den senaste tekniken och utveckla området. På grund av utmärkta resultat och moderna tekniker som gjorde borttagningsstadiet föråldrat, avbröts denna tävling.

Men den fritt tillgängliga CVC-MUSCIMA-datauppsättningen som utvecklades för denna utmaning är fortfarande mycket relevant för OMR-forskning eftersom den innehåller 1000 högkvalitativa bilder av handskrivna noter, transkriberade av 50 olika musiker. Den har utökats ytterligare till MUSCIMA++ datasetet, som innehåller detaljerade kommentarer för 140 av 1000 sidor.

SIMSSA

Single Interface for Music Score Searching and Analysis-projektet (SIMSSA) är förmodligen det största projektet som försöker lära datorer att känna igen musik och göra dem tillgängliga. Flera delprojekt har redan slutförts framgångsrikt, inklusive Liber Usualis och Cantus Ultimus.

TROMPA

Towards Richer Online Music Public-domain Archives (TROMPA) är ett internationellt forskningsprojekt, sponsrat av Europeiska Unionen som undersöker hur man kan göra offentliga digitala musikresurser mer tillgängliga.

Datauppsättningar

Utvecklingen av OMR-system drar nytta av testdatauppsättningar av tillräcklig storlek och mångfald för att säkerställa att systemet som utvecklas fungerar under olika förhållanden. Men på grund av juridiska skäl och potentiella upphovsrättsbrott är det utmanande att sammanställa och publicera en sådan datauppsättning. De mest anmärkningsvärda datamängderna för OMR hänvisas till och sammanfattas av OMR Dataset-projektet och inkluderar CVC-MUSCIMA, MUSCIMA++, DeepScores, PrIMuS, HOMUS och SEILS dataset, såväl som Universal Music Symbol Collection.

Det franska företaget Newzik tog ett annat tillvägagångssätt i utvecklingen av sin OMR-teknologi Maestria, genom att använda slumpmässig poänggenerering. Att använda syntetiska data hjälpte till att undvika upphovsrättsproblem och träna algoritmerna för artificiell intelligens på musikfall som sällan förekommer i den faktiska repertoaren, vilket i slutändan resulterade i (enligt företagets påståenden) mer exakt musikigenkänning.

programvara

Akademisk och öppen källkod

Många OMR-projekt har realiserats i den akademiska världen, men bara ett fåtal av dem nådde ett moget tillstånd och distribuerades framgångsrikt till användare. Dessa system är:

Kommersiell programvara

De flesta av de kommersiella skrivbordsapplikationerna som utvecklats under de senaste 20 åren har stängts ner igen på grund av bristen på kommersiell framgång, vilket gör att endast ett fåtal leverantörer fortfarande utvecklar, underhåller och säljer OMR-produkter. Vissa av dessa produkter hävdar extremt höga igenkänningsgrader med upp till 100 % noggrannhet men avslöjar inte hur dessa siffror erhölls, vilket gör det nästan omöjligt att verifiera dem och jämföra olika OMR-system.

  • capella-scan
  • FORTE av Forte Notation
  • MIDI-anslutningar Skanna genom att komponera och arrangera system
  • NoteScan medföljer Nightingale
  • Myriad SARL
    • OMeR (Optical Music Easy Reader) Tillägg för Harmony Assistant och Melody Assistant: Myriad Software
    • PDFtoMusic Pro
  • PhotoScore av Neuratron Light-versionen av PhotoScore används i Sibelius ; PhotoScore använder SharpEye SDK
  • Scorscan av npcImaging
  • SmartScore av Musitek. Tidigare förpackad som "MIDISCAN". (SmartScore Lite har använts i tidigare versioner av Finale ).
  • ScanScore (även som ett paket med Forte Notation .)
  • Soundslice PDF/bildimportör. AI-baserat OMR-system släpptes i beta i september 2022.
  • Maestria av Newzik. Maestria släpptes i maj 2021 och är ett exempel på den nya generationens OMR-teknik baserad på djupinlärning. Företaget hävdar att det inte bara ger bättre resultat utan också betyder "det blir mer exakt med varje konvertering".

Mobilappar

Bättre kameror och ökad processorkraft har möjliggjort en rad mobilapplikationer, både på Google Play Store och Apple Store. Ofta ligger fokus på sight-playing (se sight-reading ) - att konvertera noterna till ljud som spelas på enheten.

  • iSeeNotes av Gear Up AB
  • NotateMe Now av Neuratron
  • Notation Scanner av Song Zhang
  • PlayScore 2 av Organum Ltd
  • SmartScore NoteReader från Musitek
  • Newzik app

Se även

  • Musikinformationshämtning (MIR) är det bredare problemet med att hämta musikinformation från media inklusive noter och ljud.
  • Optisk teckenigenkänning (OCR) är igenkänning av text som kan användas för dokumenthämtning , analogt med OMR och MIR. Ett komplett OMR-system måste dock troget representera text som finns i noter, så OMR är i själva verket en superset av OCR.

externa länkar

Media relaterade till optisk musikigenkänning på Wikimedia Commons