Ljudtidsträckning och tonhöjdsskalning
Tidsförlängning är processen att ändra hastigheten eller varaktigheten för en ljudsignal utan att påverka dess tonhöjd . Tonhöjdsskalning är motsatsen: processen att ändra tonhöjden utan att påverka hastigheten. Pitch shift är tonhöjdsskalning implementerad i en effektenhet och avsedd för liveframträdande. Tonhöjdskontroll är en enklare process som påverkar tonhöjd och hastighet samtidigt genom att sakta ner eller påskynda en inspelning.
Dessa processer används ofta för att matcha tonhöjden och tempot för två förinspelade klipp för att mixa när klippen inte kan återuppföras eller samplas om. Tidsförlängning används ofta för att justera radioreklam och ljudet i tv-reklam så att de passar exakt in i de 30 eller 60 sekunder som finns tillgängliga. Den kan användas för att anpassa längre material till en angiven tidslucka, till exempel en 1-timmes sändning.
Omsampling
Det enklaste sättet att ändra varaktigheten eller tonhöjden för en ljudinspelning är att ändra uppspelningshastigheten. För en digital ljudinspelning kan detta åstadkommas genom samplingsfrekvenskonvertering . När du använder den här metoden skalas frekvenserna i inspelningen alltid i samma förhållande som hastigheten, och transponerar dess upplevda tonhöjd upp eller ner under processen. Att sakta ner inspelningen för att öka varaktigheten sänker också tonhöjden, medan om man snabbar upp den under en kortare varaktighet höjs respektive tonhöjd, vilket skapar den så kallade Chipmunk-effekten . Vid omsampling av ljud till en avsevärt lägre tonhöjd kan det vara att föredra att källljudet har en högre samplingshastighet, eftersom en långsammare uppspelningshastighet kommer att reproducera en ljudsignal med lägre upplösning och därför minska den upplevda klarheten i ljudet. Tvärtom, vid omsampling av ljud till en avsevärt högre tonhöjd kan det vara att föredra att inkorporera ett interpolationsfilter, eftersom frekvenser som överstiger Nyquist-frekvensen (bestäms av samplingshastigheten för ljudåtergivningsmjukvaran eller enheten) vanligtvis skapar oönskade ljudförvrängningar , ett fenomen som även kallas aliasing.
Frekvensdomän
Fas vocoder
Ett sätt att sträcka ut längden på en signal utan att påverka tonhöjden är att bygga en fasvokoder efter Flanagan, Golden och Portnoff.
Grundläggande steg:
- beräkna det momentana frekvens/amplitudförhållandet för signalen med användning av STFT , som är den diskreta Fouriertransformen av ett kort, överlappande och jämnt fönsterblock av sampel;
- tillämpa viss bearbetning på Fouriertransformens storlek och faser (som omsampling av FFT-blocken); och
- utför en invers STFT genom att ta den inversa Fourier-transformen på varje bit och lägga till de resulterande vågformsbitarna, även kallade överlappning och addering (OLA).
Fasvokodern hanterar sinusformade komponenter bra, men tidiga implementeringar introducerade avsevärd utsmettning på transienta ("beat") vågformer vid alla icke-heltals kompressions-/expansionshastigheter, vilket gör resultaten fasformiga och diffusa. Nyligen genomförda förbättringar möjliggör bättre kvalitetsresultat vid alla kompressions/expansionsförhållanden men en kvarvarande utsmetningseffekt kvarstår.
Fasvokodertekniken kan också användas för att utföra tonhöjdsförskjutning, körning, klangmanipulation, harmonisering och andra ovanliga modifieringar, som alla kan ändras som en funktion av tiden.
Sinusformad spektral modellering
En annan metod för tidssträckning bygger på en spektral modell av signalen. I denna metod identifieras toppar i ramar med hjälp av STFT för signalen, och sinusformade "spår" skapas genom att koppla ihop toppar i intilliggande ramar. Spåren syntetiseras sedan om på en ny tidsskala. Denna metod kan ge bra resultat på både polyfoniskt och perkussivt material, speciellt när signalen är separerad i subband. Denna metod är dock mer beräkningskrävande än andra metoder. [ citat behövs ]
Tidsdomän
SOLA
Rabiner och Schafer lade 1978 fram en alternativ lösning som fungerar i tidsdomänen : försök att hitta perioden (eller motsvarande grundfrekvensen ) för en given sektion av vågen med hjälp av någon tonhöjdsdetekteringsalgoritm (vanligtvis toppen av signalens autokorrelation , eller ibland cepstral bearbetning), och övertonar en period till en annan.
Detta kallas tidsdomän harmonisk skalning eller den synkroniserade överlappande-add-metoden (SOLA) och presterar något snabbare än fasvokodern på långsammare maskiner men misslyckas när autokorrelationen feluppskattar perioden för en signal med komplicerade övertoner (som orkesterstycken ) ).
Adobe Audition (tidigare Cool Edit Pro) verkar lösa detta genom att leta efter den period som ligger närmast en mittperiod som användaren anger, vilket ska vara en heltalsmultipel av tempot, och mellan 30 Hz och lägsta basfrekvens .
Detta är mycket mer begränsat i omfattning än den fasvokoderbaserade behandlingen, men kan göras mycket mindre processorintensiv för realtidsapplikationer. Det ger de mest sammanhängande resultaten [ citat behövs ] för ljud med enkel tonhöjd som röst eller musikaliskt monofoniska instrumentinspelningar.
Avancerade kommersiella ljudbehandlingspaket kombinerar antingen de två teknikerna (till exempel genom att separera signalen i sinusformade och transienta vågformer), eller använder andra tekniker baserade på wavelet-transformeringen eller artificiell neurala nätverksbearbetning [ citat behövs ] , vilket ger den högsta stretching av kvalitetstid.
Rambaserat tillvägagångssätt
För att bevara en ljudsignals tonhöjd när den sträcker ut eller komprimerar dess varaktighet, följer många procedurer för tidsskalemodifiering (TSM) ett rambaserat tillvägagångssätt. Givet en original ljudsignal för diskret tid, är denna strategis första steg att dela upp signalen i korta analysramar med fast längd. Analysramarna är åtskilda av ett fast antal sampel, kallat analyshoppstorleken . För att uppnå den faktiska tidsskalemodifieringen flyttas analysramarna sedan temporärt för att ha en synteshoppstorlek . Denna ramförflyttning resulterar i en modifiering av signalens varaktighet med en sträckningsfaktor på . Emellertid resulterar helt enkelt överlagring av de omodifierade analysramarna typiskt i oönskade artefakter såsom fasdiskontinuiteter eller amplitudfluktuationer. För att förhindra dessa typer av artefakter, är analysramarna anpassade för att bilda syntesramar , före rekonstruktionen av den tidsskaliga modifierade utsignalen.
Strategin för hur man härleder syntesramarna från analysramarna är en nyckelskillnad mellan olika TSM-procedurer.
Speed hearing och speed talking
För det specifika fallet med tal kan tidsförlängning utföras med PSOLA .
Tidskomprimerat tal är representationen av verbal text i komprimerad tid. Även om man kan förvänta sig snabbare för att minska förståelsen, säger Herb Friedman att "experiment har visat att hjärnan fungerar mest effektivt om informationshastigheten genom öronen - via tal - är den "genomsnittliga" läshastigheten, som är cirka 200–300 wpm (ord per minut), men den genomsnittliga talhastigheten är i närheten av 100–150 wpm."
Att lyssna på tidskomprimerat tal ses som motsvarigheten till snabbläsning .
Pitch skalning
Dessa tekniker kan också användas för att transponera ett ljudprov samtidigt som hastigheten eller varaktigheten hålls konstant. Detta kan åstadkommas genom tidssträckning och sedan omsampling tillbaka till den ursprungliga längden. Alternativt kan frekvensen av sinusoiderna i en sinusformad modell ändras direkt och signalen rekonstrueras vid lämplig tidsskala.
Transponering kan kallas frekvensskalning . eller tonhöjdsförskjutning , beroende på perspektiv
Till exempel kan man flytta upp tonhöjden för varje ton med en perfekt kvint, och hålla samma tempo. Man kan se denna transponering som att "skifta tonhöjd", "skifta" varje ton upp 7 tangenter på ett pianoklaviatur, eller lägga till en fast mängd på Mel-skalan , eller lägga till en fast mängd i linjärt tonhöjdsutrymme . Man kan se samma transponering som "frekvensskalning", "skalning" (multiplicera) frekvensen för varje ton med 3/2.
Musikalisk transponering bevarar förhållandena mellan de harmoniska frekvenserna som bestämmer ljudets klangfärg , till skillnad från frekvensförskjutningen som utförs av amplitudmodulering , som lägger till en fast frekvensoffset till frekvensen för varje ton. (I teorin skulle man kunna utföra en bokstavlig tonhöjdsskalning där den musikaliska tonhöjdsplatsen skalas [en högre ton skulle förskjutas med ett större intervall i linjär tonhöjd än en lägre ton], men det är mycket ovanligt och inte musikaliskt. [ citat behövs ] )
Tidsdomänbearbetning fungerar mycket bättre här, eftersom smetning är mindre märkbar, men skalning av röstsampler förvränger formanterna till en sorts Alvin and the Chipmunks -liknande effekt, vilket kan vara önskvärt eller oönskat. En process som bevarar formanter och karaktär hos en röst involverar att analysera signalen med en kanalvokoder eller LPC- vokoder plus någon av flera tonhöjdsdetekteringsalgoritmer och sedan återsyntetisera den vid en annan grundfrekvens.
En detaljerad beskrivning av äldre analoga inspelningstekniker för tonhöjdsförskjutning finns i Alvin and the Chipmunks- posten.
I konsumentprogramvara
Tonhöjdskorrigerad ljud-timestretch finns i alla moderna webbläsare som en del av HTML- standarden för mediauppspelning. Liknande kontroller finns överallt i mediaapplikationer och ramverk som GStreamer och Unity .
Se även
- Beatmatching
- Dynamisk tonalitet — förändringar i realtid av stämning och klangfärg
- Tonhöjdskorrigering
- Skrubbning (ljud)
-
^
"Dolby, The Chipmunks And NAB2004" . Arkiverad från originalet 2008-05-27.
{{ citera tidningen }}
: Cite magazine kräver|magazine=
( hjälp ) - ^ "Variabelt tal" . www.atarimagazines.com .
- ^ Jont B. Allen (juni 1977). "Short Time Spectral Analysis, Synthesis and Modification by Discrete Fourier Transform". IEEE-transaktioner på akustik, tal och signalbehandling . ASSP-25 (3): 235–238.
- ^ McAulay, RJ; Quatieri, TF (1988), "Speech Processing Based on a Sinusoidal Model" (PDF) , The Lincoln Laboratory Journal , 1 (2): 153–167, arkiverad från originalet (PDF) 2012-05-21 , hämtad 2014 -09-07
- ^ David Malah (april 1979). "Tidsdomänalgoritmer för harmonisk bandbreddsminskning och tidsskalning av talsignaler". IEEE-transaktioner på akustik, tal och signalbehandling . ASSP-27 (2): 121–133.
- ^ Jonathan Driedger och Meinard Müller (2016). "En granskning av tidsskalig modifiering av musiksignaler" . Yrkeskola . 6 (2): 57. doi : 10.3390/app6020057 .
- ^ Variabelt anförande , Creative Computing Vol. 9, nr 7 / juli 1983 / sid. 122
- ^ "Lyssna på poddar på halva tiden" .
- ^ "Speeding iPods" . Arkiverad från originalet 2006-09-02.
- ^ "HTMLMediaElement.playbackRate - webb-API:er" . MDN . Hämtad 1 september 2021 .
externa länkar
- Time Stretching och Pitch Shifting Översikt En omfattande översikt över aktuella tid- och pitchmodifieringstekniker av Stephan Bernsee
- Stephan Bernsees smbPitchShift C-källkod C-källkod för manipulering av frekvensdomän
- pitchshift.js från KievII En Javascript-pitchshifter baserad på smbPitchShift-kod, från KievII-biblioteket med öppen källkod
- The Phase Vocoder: A Tutorial - En bra beskrivning av phase vocoder
- Nya Phase-Vocoder-tekniker för pitch-shifting, harmonisering och andra exotiska effekter
- Ett nytt tillvägagångssätt för transient bearbetning i Phase Vocoder
- PICOLA och TDHS
- Hur man bygger en pitch shifter Teori, ekvationer, figurer och prestanda för en gitarr pitch shifter i realtid som körs på ett DSP-chip
- ZTX Time Stretching Library Gratis och kommersiella versioner av ett populärt 3:e parts time stretching-bibliotek för iOS, Linux, Windows och Mac OS X
- Elastique by zplane kommersiellt plattformsoberoende bibliotek, används främst av DJ- och DAW-tillverkare
- Voice Synth från Qneo - specialiserad synthesizer för kreativ röstskulptering
- TSM-verktygslåda Gratis MATLAB-implementationer av olika förfaranden för tidsskalaändring
- PaulStretch , en välkänd algoritm för extrem (> 10×) tidssträckning