Talkodning
Talkodning är en tillämpning av datakomprimering av digitala ljudsignaler som innehåller tal . Talkodning använder talspecifik parameteruppskattning med användning av audiosignalbehandlingstekniker för att modellera talsignalen, kombinerat med generiska datakomprimeringsalgoritmer för att representera de resulterande modellerade parametrarna i en kompakt bitström.
Vissa tillämpningar av talkodning är mobiltelefoni och röst över IP ( VoIP). Den mest använda tekniken för talkodning inom mobiltelefoni är linjär prediktiv kodning (LPC), medan den mest använda i VoIP-applikationer är LPC och modifierad diskret cosinustransform (MDCT). [ citat behövs ]
Teknikerna som används vid talkodning liknar de som används vid ljuddatakomprimering och ljudkodning där kunskaper inom psykoakustik används för att endast överföra data som är relevanta för det mänskliga hörselsystemet. Till exempel, vid röstbandstalkodning , sänds endast information i frekvensbandet 400 till 3500 Hz, men den rekonstruerade signalen är fortfarande tillräcklig för förståelighet .
Talkodning skiljer sig från andra former av ljudkodning genom att tal är en enklare signal än de flesta andra ljudsignaler, och mycket mer statistisk information finns tillgänglig om tals egenskaper. Som ett resultat kan viss auditiv information som är relevant vid ljudkodning vara onödig i talkodningssammanhang. Vid talkodning är det viktigaste kriteriet bevarandet av förståelighet och behaglighet i talet, med en begränsad mängd överförd data. Dessutom kräver de flesta taltillämpningar låg kodningsfördröjning, eftersom långa kodningsfördröjningar stör talinteraktion.
Kategorier
Talkodare är av två typer:
- Vågformskodare
- Tidsdomän: PCM , ADPCM
- Frekvensdomän: subbandskodning , ATRAC
- Vokoder
Exempelkompanding ses som en form av talkodning
A -lag och μ-lagsalgoritmerna ( G.711 ) som används i traditionell PCM digital telefoni kan ses som en tidigare föregångare till talkodning, som kräver endast 8 bitar per sampel men ger effektivt 12 bitars upplösning. De logaritmiska kompanderande lagarna överensstämmer med mänsklig hörseluppfattning genom att ett brus med låg amplitud hörs längs en talsignal med låg amplitud men maskeras av en högamplitud. Även om detta skulle generera oacceptabel distorsion i en musiksignal, gör den toppiga karaktären hos talvågformer, i kombination med den enkla frekvensstrukturen hos tal som en periodisk vågform med en enda grundfrekvens med enstaka tillagda brusskurar, dessa mycket enkla momentana komprimeringsalgoritmer acceptabla för Tal.
En stor mängd andra algoritmer prövades vid den tiden, mestadels deltamoduleringsvarianter , men efter noggrant övervägande valdes A-lag/μ-lagsalgoritmerna av konstruktörerna av de tidiga digitala telefonisystemen. Vid tidpunkten för designen var deras 33 % bandbreddsminskning för en mycket låg komplexitet en utmärkt teknisk kompromiss. Deras ljudprestanda är fortfarande acceptabel, och det fanns inget behov av att ersätta dem i det stationära telefonnätet.
2008 standardiserades G.711.1 codec, som har en skalbar struktur, av ITU-T. Ingångssamplingshastigheten är 16 kHz.
Modern talkompression
Mycket av det senare arbetet med talkomprimering motiverades av militär forskning om digital kommunikation för säkra militärradioapparater, där mycket låga datahastigheter krävdes för att möjliggöra effektiv drift i en fientlig radiomiljö. Samtidigt fanns mycket mer processorkraft tillgänglig, i form av VLSI-kretsar , än vad som var tillgängligt för tidigare kompressionstekniker. Som ett resultat kunde moderna talkomprimeringsalgoritmer använda mycket mer komplexa tekniker än vad som var tillgängliga på 1960-talet för att uppnå mycket högre kompressionsförhållanden.
Dessa tekniker var tillgängliga genom den öppna forskningslitteraturen för att användas för civila tillämpningar, vilket gjorde det möjligt att skapa digitala mobiltelefonnät med avsevärt högre kanalkapacitet än de analoga systemen som föregick dem. [ citat behövs ]
De mest använda talkodningsalgoritmerna är baserade på linjär prediktiv kodning ( LPC). I synnerhet är det vanligaste talkodningsschemat den LPC-baserade kodexciterade linjära prediktionskodningen (CELP), som används till exempel i GSM -standarden. I CELP är modelleringen uppdelad i två steg, ett linjärt prediktivt steg som modellerar spektralenveloppen och en kodboksbaserad modell av residual från den linjära prediktiva modellen. I CELP beräknas och kvantiseras linjära prediktionskoefficienter (LPC), vanligtvis som linjespektralpar (LSP). Förutom själva talkodningen av signalen är det ofta nödvändigt att använda kanalkodning för överföring, för att undvika förluster på grund av överföringsfel. För att få de bästa övergripande kodningsresultaten väljs talkodning och kanalkodningsmetoder i par, med de viktigare bitarna i taldataströmmen skyddade av mer robust kanalkodning.
Den modifierade diskreta cosinustransformen (MDCT), en typ av diskret cosinustransform (DCT) algoritm, anpassades till en talkodningsalgoritm som kallas LD-MDCT, som används för AAC-LD- formatet som introducerades 1999. MDCT har sedan dess blivit allmänt använt i Voice-over-IP ( VoIP )-applikationer, som G.729.1- bredbandsaudiocodec som introducerades 2006, Apples FaceTime (med AAC-LD) som introducerades 2010 och CELT- codec som introducerades 2011.
Opus är en gratis programvara för ljudkodare. Den kombinerar både MDCT (CELT) och LPC (SILK) ljudkomprimeringsalgoritmer, med den förra för tal. Det används ofta för VoIP-samtal i WhatsApp . PlayStation 4- spelkonsolen använder också Opus för sin PlayStation Network- systempartychatt.
Ett antal codecs med ännu lägre bithastigheter har visats. Codec2 , som arbetar med så låga bithastigheter som 450 bps, används i amatörradio. NATO använder för närvarande MELPe , som erbjuder läsbart tal 600 bps (med en icke-standardvariant som halverar antalet). Lyra från Google använder en ovanlig maskininlärningsmetod som ger "nästan kuslig" kvalitet på 3 kbps. Microsofts Satin använder också maskininlärning, men använder en högre avstämbar bithastighet och är bredbandig.
Underfält
-
Linjär prediktiv kodning (LPC)
- AMR-WB för WCDMA- nätverk
- VMR-WB för CDMA2000 -nätverk
- Speex , IP-MR, SILK och Opus för voice-over-IP (VoIP) och videokonferenser
- Modifierad diskret cosinustransform (MDCT)
-
Adaptiv differentiell pulskodmodulering (ADPCM)
- G.722 för VoIP
- Smalbandig ljudkodning
- LPC
- ADPCM
- G.726 för VoIP
-
Multi-Band Excitation (MBE)
- AMBE+ för digital mobilradio och satellittelefon
- Codec 2
Se även
externa länkar
- ITU-T-testsignaler för testprover för telekommunikationssystem
- ITU-T Perceptuell utvärdering av talkvalitet (PESQ) verktyg Källor