Harmoniska tonhöjdsklassprofiler

Harmonic pitch class profiles (HPCP) är en grupp funktioner som ett datorprogram extraherar från en ljudsignal , baserat på en tonhöjdsklassprofil — en deskriptor som föreslås i ett system för ackordigenkänning. HPCP är en förbättrad tonhöjdsfördelningsfunktion som är sekvenser av egenskapsvektorer som i viss utsträckning beskriver tonalitet , som mäter den relativa intensiteten för var och en av de 12 tonhöjdsklasserna i den likahärdade skalan inom en analysram. Ofta kallas de tolv tonhöjdsstavningsattributen också som chroma och HPCP-funktionerna är nära besläktade med det som kallas chroma features eller chromagrams .

Genom att bearbeta musikaliska signaler kan programvara identifiera HPCP-funktioner och använda dem för att uppskatta nyckeln till ett stycke, för att mäta likheten mellan två musikaliska stycken (identifiering av omslagsversion), för att utföra innehållsbaserad ljudhämtning (ljudmatchning), för att extrahera musikalen struktur (ljudstrukturanalys), och att klassificera musik i termer av kompositör, genre eller stämning. Processen är relaterad till tids-frekvensanalys . I allmänhet är färgegenskaper robusta mot brus (t.ex. omgivande brus eller slagljud), oberoende av klangfärg och instrumentering och oberoende av ljudstyrka och dynamik.

HPCP:er är avstämningsoberoende och beaktar närvaron av övertonsfrekvenser, så att referensfrekvensen kan skilja sig från standard A 440 Hz. Resultatet av HPCP-beräkning är ett 12-, 24- eller 36-facks oktavoberoende histogram beroende på den önskade upplösningen, som representerar den relativa intensiteten för varje 1, 1/2 eller 1/3 av de 12 halvtonerna i den lika härdade skalan .

Allmän HPCP-funktionsextraktionsprocedur

Fig.1 Allmänt blockschema för extraktion av HPCP-funktioner

Blockschemat för proceduren visas i Fig. 1 och beskrivs ytterligare i.

Proceduren för extraktion av allmänna HPCP-funktioner sammanfattas enligt följande:

  1. Inmatning av musikalisk signal.
  2. Gör spektralanalys för att få fram frekvenskomponenterna i musiksignalen.
  3. Använd Fouriertransform för att omvandla signalen till ett spektrogram. (Fouriertransformen är en typ av tidsfrekvensanalys .)
  4. Gör frekvensfiltrering . Ett frekvensområde på mellan 100 och 5000 Hz används.
  5. Gör toppdetektion . Endast de lokala maxvärdena för spektrumet beaktas.
  6. Gör referensfrekvensberäkningsprocedur . Uppskatta avvikelsen med avseende på 440 Hz.
  7. Gör tonhöjdsklassmappning med avseende på den uppskattade referensfrekvensen. Detta är en procedur för att bestämma tonhöjdsklassvärdet från frekvensvärden. Ett viktningsschema med cosinusfunktion används. Den tar hänsyn till närvaron av övertonsfrekvenser (övertonssummeringsprocedur), och tar hänsyn till totalt 8 övertoner för varje frekvens. För att mappa värdet på en tredjedel av en halvton måste storleken på tonhöjdsklassfördelningsvektorerna vara lika med 36 .
  8. Normalisera funktionen ram för bildruta genom att dividera genom det maximala värdet för att eliminera beroendet av global ljudstyrka. Och då kan vi få en HPCP-resultatsekvens som Fig.2.
Fig.2 Exempel på en högupplöst HPCP-sekvens

System för att mäta likheten mellan två låtar

Fig.3 System för att mäta likhet mellan två låtar

Efter att ha fått HPCP-funktionen är tonhöjden för signalen i en tidssektion känd. HPCP-funktionen har använts för att beräkna likheten mellan två låtar i många forskningsartiklar. Ett system för att mäta likheten mellan två låtar visas i Fig.3 . För det första behövs tids-frekvensanalys för att extrahera HPCP-funktionen. Och ställ sedan in två låtars HPCP-funktion till en global HPCP, så det finns en standard för jämförelse. Nästa steg är att använda de två funktionerna för att konstruera en binär likhetsmatris . Smith–Waterman-algoritmen används för att konstruera en lokal anpassningsmatris H i Dynamic Programming Local Alignment . Slutligen, efter att ha gjort efterbearbetning, kan avståndet mellan två låtar beräknas.

Se även

externa länkar