Omplaceringsmetod
Metoden för omtilldelning är en teknik för att skärpa en tids-frekvensrepresentation genom att kartlägga data till tids-frekvenskoordinater som är närmare det verkliga stödområdet för den analyserade signalen. Metoden har introducerats oberoende av flera parter under olika namn, inklusive metod för omtilldelning , ommappning , tidsfrekvensomtilldelning och modifierad rörlig fönstermetod . I fallet med spektrogrammet eller den korta Fourier-transformen skärper metoden för omtilldelning suddiga tidsfrekvensdata genom att omlokalisera data enligt lokala uppskattningar av momentan frekvens och gruppfördröjning. Denna mappning till omtilldelade tids-frekvenskoordinater är mycket exakt för signaler som är separerbara i tid och frekvens med avseende på analysfönstret.
Introduktion
Många signaler av intresse har en energifördelning som varierar i tid och frekvens. Till exempel har varje ljudsignal som har en början eller ett slut en energifördelning som varierar i tid, och de flesta ljud uppvisar avsevärd variation i både tid och frekvens över sin varaktighet. Tidsfrekvensrepresentationer används vanligtvis för att analysera eller karakterisera sådana signaler. De mappar den endimensionella tidsdomänsignalen till en tvådimensionell funktion av tid och frekvens. En tids-frekvensrepresentation beskriver variationen av spektral energifördelning över tid, ungefär som ett musikpartitur beskriver variationen av musikalisk tonhöjd över tiden.
Inom ljudsignalanalys är spektrogrammet den mest använda tidsfrekvensrepresentationen, troligen för att den är väl förstådd och immun mot så kallade "korstermer" som ibland gör andra tidsfrekvensrepresentationer svårtolkade. Men fönsteroperationen som krävs vid spektrogramberäkning introducerar en motbjudande kompromiss mellan tidsupplösning och frekvensupplösning, så spektrogram ger en tids-frekvensrepresentation som är suddig i tid, i frekvens eller i båda dimensionerna. Metoden för omtilldelning av tid och frekvens är en teknik för att omfokusera tidsfrekvensdata i en suddig representation som spektrogrammet genom att kartlägga data till tidsfrekvenskoordinater som är närmare det verkliga stödområdet för den analyserade signalen.
Spektrogrammet som en tids-frekvensrepresentation
En av de mest kända tids-frekvensrepresentationerna är spektrogrammet, definierat som den kvadratiska storleken av korttids Fourier-transformen. Även om korttidsfasspektrumet är känt för att innehålla viktig tidsinformation om signalen, är denna information svår att tolka, så typiskt sett beaktas endast korttidsmagnitudspektrumet vid korttidsspektralanalys.
Som en tids-frekvensrepresentation har spektrogrammet relativt dålig upplösning. Tid och frekvensupplösning styrs av valet av analysfönster och större koncentration i en domän åtföljs av större utsmetning i den andra.
En tids-frekvensrepresentation med förbättrad upplösning, i förhållande till spektrogrammet, är Wigner–Ville-fördelningen , som kan tolkas som en korttids Fouriertransform med en fönsterfunktion som är perfekt anpassad till signalen. Wigner–Ville-distributionen är mycket koncentrerad i tid och frekvens, men den är också mycket olinjär och icke-lokal. Följaktligen är denna fördelning mycket känslig för brus och genererar korskomponenter som ofta maskerar komponenterna av intresse, vilket gör det svårt att extrahera användbar information om fördelningen av energi i flerkomponentssignaler.
Cohens klass av bilinjära tidsfrekvensrepresentationer är en klass av "utjämnade" Wigner–Ville-distributioner, som använder en utjämnande kärna som kan reducera distributionens känslighet för brus och undertrycka korskomponenter, på bekostnad av att utsmeta fördelningen i tid och frekvens . Denna utsmetning gör att fördelningen inte är noll i regioner där den sanna Wigner–Ville-fördelningen inte visar någon energi.
Spektrogrammet är en medlem av Cohens klass. Det är en utjämnad Wigner–Ville-distribution med utjämningskärnan lika med Wigner–Ville-distributionen i analysfönstret. Metoden för omtilldelning jämnar ut Wigner–Ville-fördelningen, men fokuserar sedan om distributionen tillbaka till de verkliga stödområdena för signalkomponenterna. Metoden har visat sig minska tid och frekvens utsmetande av någon medlem i Cohens klass. I fallet med det omtilldelade spektrogrammet används korttidsfasspektrumet för att korrigera de nominella tids- och frekvenskoordinaterna för spektraldata och mappa tillbaka det närmare de verkliga stödområdena för den analyserade signalen.
Metoden för omplacering
Banbrytande arbete med metoden för omtilldelning publicerades av Kodera, Gendrin och de Villedary under namnet Modified Moving Window Method. Deras teknik förbättrar upplösningen i tid och frekvens av den klassiska Moving Window Method (motsvarande spektrogrammet) genom att tilldela varje datapunkt en ny tids-frekvenskoordinat som bättre reflekterar fördelningen av energi i den analyserade signalen.
I den klassiska rörliga fönstermetoden bryts en tidsdomänsignal, upp i en uppsättning koefficienter, , baserat på en uppsättning elementära signaler, , definierad
där är en (verkligt värderad) lågpasskärnfunktion, som fönsterfunktionen i den korta Fouriertransformen. Koefficienterna i denna sönderdelning är definierade
där är storleken, och fasen, av , Fouriertransformen av signalen förskjuten i tid med och fönsterad med .
kan rekonstrueras från de rörliga fönsterkoefficienterna genom att
För signaler med magnitudspektra, vars tidsvariation är långsam i förhållande till fasvariationen, kommer det maximala bidraget till rekonstruktionsintegralen från närheten av punkten som uppfyller fasstationaritetsvillkoret
eller motsvarande, runt punkten definierade av
Detta fenomen är känt inom sådana områden som optik som principen för stationär fas, som säger att för periodiska eller kvasi-periodiska signaler är variationen av Fourierfasspektrumet som inte kan tillskrivas periodisk svängning långsam med avseende på tid i närheten av svängningsfrekvensen, och i omgivande regioner är variationen relativt snabb. Analogt, för impulsiva signaler, som är koncentrerade i tid, är variationen av fasspektrumet långsam med avseende på frekvens nära tiden för impulsen, och i omgivande regioner är variationen relativt snabb.
Vid rekonstruktion upphäver positiva och negativa bidrag till den syntetiserade vågformen, på grund av destruktiv interferens, i frekvensområden med snabb fasvariation. Endast områden med långsam fasvariation (stationär fas) kommer att bidra signifikant till rekonstruktionen, och det maximala bidraget (tyngdpunkten) inträffar vid den punkt där fasen förändras långsammast med avseende på tid och frekvens.
De sålunda beräknade tids-frekvenskoordinaterna är lika med den lokala gruppfördröjningen, och lokal momentan frekvens , och beräknas från fasen av den korta Fouriertransformen, som normalt är ignoreras när spektrogrammet konstrueras. Dessa kvantiteter är lokala i den meningen att de representerar en fönsterad och filtrerad signal som är lokaliserad i tid och frekvens, och är inte globala egenskaper hos signalen som analyseras.
Den modifierade rörliga fönstermetoden, eller metoden för omtilldelning, ändrar (omtilldelar) tilldelningspunkten för till denna punkt för maximalt bidrag till punkten där den beräknas. Denna punkt kallas ibland tyngdpunkt , i analogi med en massfördelning. Denna analogi är en användbar påminnelse om att tilldelningen av spektral energi till tyngdpunkten för dess distribution endast är meningsfull när det finns energi att tillskriva, så metoden för omtilldelning har ingen mening vid punkter där spektrogrammet har nollvärde.
Effektiv beräkning av omtilldelade tider och frekvenser
Inom digital signalbehandling är det vanligast att sampla tids- och frekvensdomänerna. Den diskreta Fouriertransformen används för att beräkna samplen av Fouriertransformen från samplen av en tidsdomänsignal. De omplaceringsoperationer som Kodera et al. kan inte tillämpas direkt på diskreta korttids Fourier-transformationsdata, eftersom partiella derivator inte kan beräknas direkt på data som är diskreta i tid och frekvens, och det har föreslagits att denna svårighet har varit det primära hindret för en bredare användning av metoden av omplacering.
Det är möjligt att approximera de partiella derivatorna med ändliga skillnader. Till exempel kan fasspektrumet utvärderas vid två närliggande tidpunkter, och den partiella derivatan med avseende på tid kan approximeras som skillnaden mellan de två värdena dividerat med tidsskillnaden, som i
För tillräckligt små värden på och och förutsatt att fasskillnaden är lämpligt "olindad", ger denna ändliga skillnadsmetod goda approximationer till partialen derivator av fas, eftersom i områden av spektrumet där utvecklingen av fasen domineras av rotation på grund av sinusformad oscillation av en enda, närliggande komponent, är fasen en linjär funktion.
Oberoende av Kodera et al. , kom Nelson fram till en liknande metod för att förbättra tids-frekvensprecisionen för korttidsspektraldata från partiella derivator av korttidsfasspektrumet. Det är lätt att visa att Nelsons tvärspektrala ytor beräknar en approximation av derivatorna som är ekvivalent med den finita differensmetoden.
Auger och Flandrin visade att metoden för omtilldelning, som föreslagits i samband med spektrogrammet av Kodera et al., kunde utvidgas till vilken medlem som helst av Cohens klass av tidsfrekvensrepresentationer genom att generalisera omtilldelningsoperationerna till
där är Wigner–Ville-fördelningen av , och är kärnfunktionen som definierar distributionen. De beskrev vidare en effektiv metod för att effektivt och exakt beräkna tiderna och frekvenserna för det omtilldelade spektrogrammet utan att explicit beräkna de partiella derivatorna av fasen.
I fallet med spektrogrammet kan omtilldelningsoperationerna beräknas av
där är den korta Fouriertransformen beräknad med hjälp av ett analysfönster är den korta Fouriertransformen beräknad med hjälp av ett tidsvägt analysfönster och är den korta Fouriertransformen beräknad med hjälp av ett tidsderivatanalysfönster .
Genom att använda de extra fönsterfunktionerna och , omtilldelningsoperationerna kan beräknas vid vilken tid-frekvenskoordinat som helst från en algebraisk kombination av tre Fourier-transformer utvärderade vid . Eftersom dessa algoritmer endast fungerar på korttidsspektraldata utvärderade vid en enda tidpunkt och frekvens, och inte explicit beräknar några derivator, ger detta en effektiv metod för att beräkna den omtilldelade diskreta korttids Fourier-transformen.
En begränsning i denna beräkningsmetod är att måste vara icke-noll. Detta är inte mycket av en begränsning, eftersom omtilldelningsoperationen i sig innebär att det finns en del energi att omfördela, och har ingen betydelse när fördelningen är nollvärderad.
Separerbarhet
Den korta Fouriertransformen kan ofta användas för att uppskatta amplituderna och faserna för de enskilda komponenterna i en flerkomponentsignal, såsom en kvasi-harmonisk musikinstrumentton. Dessutom kan tids- och frekvensomtilldelningsoperationerna användas för att skärpa representationen genom att tillskriva den spektrala energin som rapporteras av den korta Fouriertransformen till den punkt som är den lokala tyngdpunkten för den komplexa energifördelningen.
För en signal som består av en enda komponent kan den momentana frekvensen uppskattas från de partiella derivatorna av fasen för varje korttids Fourier-transformkanal som passerar komponenten. Om signalen ska delas upp i många komponenter,
och den momentana frekvensen för varje komponent definieras som derivatan av dess fas med avseende på tid, det vill säga,
då kan den momentana frekvensen för varje enskild komponent beräknas från fasen för svaret för ett filter som passerar den komponenten, förutsatt att inte mer än en komponent ligger i filtrets passband.
Detta är egenskapen, i frekvensdomänen, som Nelson kallade separerbarhet och som krävs för alla signaler som analyseras på detta sätt. Om denna egenskap inte uppfylls, kan den önskade multikomponentsönderdelningen inte uppnås, eftersom parametrarna för individuella komponenter inte kan uppskattas från den korta Fouriertransformen. I sådana fall måste ett annat analysfönster väljas så att separerbarhetskriteriet är uppfyllt.
Om komponenterna i en signal är separerbara i frekvens med avseende på ett särskilt korttidsspektralanalysfönster, är utsignalen från varje korttids Fourier-transformfilter en filtrerad version av som mest en enda dominant (som har betydande energi) komponent, och därför är derivatan, med avseende på tid, av fasen av lika med derivatan med avseende på tid, av fas för den dominanta komponenten vid Därför, om en komponent, har momentan frekvens är den dominerande komponenten i närheten av sedan kan den momentana frekvensen för den komponenten beräknas från fasen av den korta Fouriertransformen utvärderad vid Det vill säga,
Precis som varje bandpassfilter i korttids Fourier-transformfilterbanken kan passera högst en enda komplex exponentiell komponent, måste två tidshändelser vara tillräckligt åtskilda i tiden för att de inte ligger i samma fönstersegment av insignalen. Detta är egenskapen för separerbarhet i tidsdomänen och är ekvivalent med att kräva att tiden mellan två händelser är större än längden på impulssvaret för korttids Fourier-transformfiltren, spännvidden av sampel som inte är noll i
I allmänhet finns det ett oändligt antal lika giltiga sönderdelningar för en flerkomponentsignal. Separerbarhetsegenskapen måste betraktas i samband med den önskade nedbrytningen. Till exempel, vid analys av en talsignal är ett analysfönster som är långt i förhållande till tiden mellan glottalpulserna tillräckligt för att separera övertoner, men de individuella glottalpulserna kommer att smetas ut, eftersom många pulser täcks av varje fönster (dvs. , är de individuella pulserna inte separerbara i tid av det valda analysfönstret). Ett analysfönster som är mycket kortare än tiden mellan glottalpulserna kan lösa de glottala pulserna, eftersom inget fönster sträcker sig över mer än en puls, men de harmoniska frekvenserna är utsmetade, eftersom huvudloben i analysfönstrets spektrum är bredare än avståndet mellan övertonerna (det vill säga övertonerna är inte separerbara i frekvens av det valda analysfönstret).
- ^ Hainsworth, Stephen (2003). "Kapitel 3: Omplaceringsmetoder". Tekniker för automatiserad analys av musikaliskt ljud ( PhD). Universitetet i Cambridge. CiteSeerX 10.1.1.5.9579 .
- ^ a b F. Auger & P. Flandrin (maj 1995). "Förbättra läsbarheten av tidsfrekvens- och tidsskalarepresentationer genom omtilldelningsmetoden". IEEE-transaktioner på signalbehandling . 43 (5): 1068–1089. Bibcode : 1995ITSP...43.1068A . CiteSeerX 10.1.1.646.794 . doi : 10.1109/78.382394 .
- ^ P. Flandrin, F. Auger och E. Chassande-Mottin, Tidsfrekvensomfördelning: Från principer till algoritmer , i Applications in Time-Frequency Signal Processing (A. Papandreou-Suppappola, red.), kap. 5, s. 179 – 203, CRC Press, 2003.
- ^ K. Kodera; R. Gendrin & C. de Villedary (feb 1978). "Analys av tidsvarierande signaler med små BT-värden". IEEE-transaktioner på akustik, tal och signalbehandling . 26 (1): 64–76. doi : 10.1109/TASSP.1978.1163047 .
- ^ a b D. J. Nelson (november 2001). "Tvärspektrala metoder för bearbetning av tal". Journal of the Acoustical Society of America . 110 (5): 2575–2592. Bibcode : 2001ASAJ..110.2575N . doi : 10.1121/1.1402616 . PMID 11757947 .
Vidare läsning
- SA Fulop och K. Fitz, A spectrogram for the twenty-first century , Acoustics Today, vol. 2, nr. 3, s. 26–33, 2006.
- SA Fulop och K. Fitz, Algoritmer för beräkning av det tidskorrigerade momentana frekvensspektrogrammet (omtilldelad), med tillämpningar, Journal of the Acoustical Society of America, vol. 119, s. 360 – 371, januari 2006.
externa länkar
- TFTB — Time-Frequency ToolBox
- SPEAR - Sinusformad partiell redigeringsanalys och återsyntes
- Loris - Programvara med öppen källkod för ljudmodellering och morphing
- SRA - Ett webbaserat forskningsverktyg för spektral- och grovhetsanalys av ljudsignaler Arkiverad 2019-11-18 på Wayback Machine (stödd av ett anslag från Northwest Academic Computing Consortium till J. Middleton, Eastern Washington University)
- Gles tids-frekvensrepresentationer - PNAS