Mel-frekvens cepstrum

Vid ljudbehandling är mel -frekvens-cepstrum ( MFC ) en representation av det kortsiktiga effektspektrumet för ett ljud, baserat på en linjär cosinustransform av ett log-effektspektrum på en icke-linjär mel -frekvensskala.

Mel-frekvens cepstralkoefficienter ( MFCC ) är koefficienter som tillsammans utgör en MFC. De härrör från en typ av cepstral representation av ljudklippet (ett icke-linjärt "spektrum-av-ett-spektrum"). Skillnaden mellan cepstrum och mel-frekvens cepstrum är att i MFC är frekvensbanden lika fördelade på mel-skalan, vilket approximerar det mänskliga hörselsystemets svar närmare än de linjärt fördelade frekvensbanden som används i det normala spektrumet. Denna frekvensförvrängning kan möjliggöra bättre representation av ljud, till exempel i ljudkomprimering som potentiellt kan minska överföringsbandbredden och lagringskraven för ljudsignaler.

MFCC härleds vanligtvis enligt följande:

  1. Ta Fouriertransformen av (ett fönsterutdrag av) en signal.
  2. Kartlägg krafterna för spektrumet som erhållits ovan på mel-skalan , med hjälp av triangulära överlappande fönster eller alternativt cosinusöverlappande fönster .
  3. Ta loggarna för krafterna vid var och en av mel-frekvenserna.
  4. Ta den diskreta cosinustransformeringen av listan över mel log-effekter, som om det vore en signal.
  5. MFCC:erna är amplituderna för det resulterande spektrumet.

Det kan finnas variationer på denna process, till exempel: skillnader i formen eller avståndet mellan fönstren som används för att kartlägga skalan, eller tillägg av dynamikfunktioner som "delta" och "delta-delta" (första och andra ordningens ram -till-bildruta skillnad) koefficienter.

European Telecommunications Standards Institute i början av 2000-talet definierade en standardiserad MFCC-algoritm som skulle användas i mobiltelefoner .

MFCC för igenkänning av högtalare

Eftersom Mel-frekvensband är jämnt fördelade i MFCC och de påminner mycket om röstsystemet hos en människa, så kan MFCC effektivt användas för att karakterisera högtalare, till exempel kan det användas för att känna igen högtalarens mobiltelefonmodelldetaljer och ytterligare detaljer om talaren.

På tal om taligenkänning för att identifiera mobiltelefoner, produktionen av elektroniska komponenter i en telefon har toleranser eftersom olika elektroniska kretsförverkliganden inte har exakt samma överföringsfunktioner . Olikheterna i överföringsfunktionen från en realisering till en annan blir mer framträdande om de uppgiftsutförande kretsarna är från olika tillverkare. Därför introducerar varje mobiltelefon en konvolutionell förvrängning på inmatat tal som lämnar sin unika inverkan på inspelningarna från mobiltelefonen. Därför kan en speciell telefon identifieras från det inspelade talet genom att multiplicera det ursprungliga frekvensspektrumet med ytterligare multiplikation av överföringsfunktion som är specifik för varje telefon följt av signalbehandlingstekniker. Genom att använda MFCC kan man alltså karakterisera mobiltelefoninspelningar för att identifiera telefonens märke och modell.

Överväger inspelningsdelen av en mobiltelefon som linjärt tidsinvariant ( LTI ) filter:

Impulssvar- h(n) , inspelad talsignal y(n) som utsignal från filter som svar på ingång x(n).

Därför är (faltning)

Eftersom tal inte är en stationär signal delas den in i överlappande ramar inom vilka signalen antas vara stationär. Så kortsiktiga segmentet (ram) av inspelat inmatat tal är:

,

där w(n) : fönsterfunktion av längden W.

Såsom specificerat är fotavtrycket för mobiltelefonen för det inspelade talet faltningsförvrängningen som hjälper till att identifiera inspelningstelefonen.

Mobiltelefonens inbäddade identitet kräver en omvandling till en bättre identifierbar form, och tar därför korttids Fourier-transformation:

kan betraktas som en sammanlänkade överföringsfunktion som producerade inmatat tal, och det inspelade talet kan uppfattas som originaltal från mobiltelefon.

Så likvärdig överföringsfunktion för röstkanalen och mobiltelefoninspelare anses vara den ursprungliga källan till inspelat tal. Därför,

där Xew(f) är excitationsfunktionen, är röstkanalens överföringsfunktion för tal i ramen och är motsvarande överföringsfunktion som kännetecknar mobiltelefonen.

Detta tillvägagångssätt kan vara användbart för igenkänning av högtalare eftersom enhetsidentifieringen och högtalaridentifieringen är mycket sammankopplade.

Genom att ge vikt åt enveloppen av spektrumet som multipliceras med filterbank (lämplig cepstrum med mel-scale filterbank), efter utjämning av filterbank med överföringsfunktion U(f), är loggoperationen på utgående energier:

Representerar

MFCC är framgångsrikt på grund av denna olinjära transformation med additiv egenskap.

Omvandla tillbaka till tidsdomän:

där cy(j), ce(j), cw(j) är det inspelade talcepstrumet och det viktade ekvivalenta impulssvaret för mobiltelefoninspelaren som kännetecknar mobiltelefonen, medan j är antalet filter i filterbanken.

Närmare bestämt finns den anordningsspecifika informationen i det inspelade talet som omvandlas till additiv form lämplig för identifiering.

cy(j) kan bearbetas ytterligare för identifiering av inspelningstelefonen.

Ofta använda ramlängder - 20 eller 20 ms.

Vanligt använda fönsterfunktioner- Hamming och Hanning fönster.

Därför är Mel-skalan en vanlig frekvensskala som är linjär till 1000 Hz och logaritmisk över den.

Beräkning av centrala frekvenser för filter i Mel-skala:

bas 10.

Grundläggande procedur för MFCC-beräkning:

  1. Logaritmiska filterbanksutgångar produceras och multipliceras med 20 för att erhålla spektralenvelopper i decibel.
  2. MFCC erhålls genom att ta Diskret Cosine Transform (DCT) av spektralenveloppen.
  3. Cepstrumkoefficienter erhålls som:

, i = 1,2,....,L ,

där c i = c y (i) = i:te MFCC-koefficienten, Nf beräkna är antalet triangulära filter i filterbanken, Sn är logenergiutmatningen för n:e filterkoefficienten och L är antalet MFCC-koefficienter som vi vill .

Ansökningar

MFCC:er används vanligtvis som funktioner i taligenkänningssystem , såsom system som automatiskt kan känna igen nummer som talas in i en telefon.

MFCC:er hittar också alltmer användning i applikationer för hämtning av musikinformation såsom genreklassificering , ljudlikhetsmått etc.

Ljudkänslighet

MFCC-värden är inte särskilt robusta i närvaro av additivt brus, och därför är det vanligt att normalisera deras värden i taligenkänningssystem för att minska påverkan av brus. Vissa forskare föreslår modifieringar av den grundläggande MFCC-algoritmen för att förbättra robustheten, till exempel genom att höja log-mel-amplituderna till en lämplig effekt (runt 2 eller 3) innan man tar den diskreta cosinustransformen (DCT), vilket minskar inverkan av låg- energikomponenter.

Historia

Paul Mermelstein är vanligtvis krediterad med utvecklingen av MFC. Mermelstein krediterar Bridle och Brown för idén:

Bridle och Brown använde en uppsättning av 19 viktade spektrumformskoefficienter som gavs av cosinustransformeringen av utsignalerna från en uppsättning bandpassfilter med olikformigt avstånd. Filteravståndet är valt att vara logaritmiskt över 1 kHz och filterbandbredderna ökas även där. Vi kommer därför att kalla dessa för de melbaserade cepstrala parametrarna.

Ibland citeras båda tidiga upphovsmännen.

Många författare, inklusive Davis och Mermelstein, har kommenterat att de spektrala basfunktionerna för cosinustransformen i MFC är mycket lika de huvudsakliga komponenterna i logspektra, som tillämpades på talrepresentation och igenkänning mycket tidigare av Pols och hans kollegor.

Se även

externa länkar