Akustisk modell

En akustisk modell används i automatisk taligenkänning för att representera förhållandet mellan en ljudsignal och fonem eller andra språkliga enheter som utgör tal. Modellen lärs från en uppsättning ljudinspelningar och deras motsvarande transkriptioner. Det skapas genom att ta ljudinspelningar av tal och deras texttranskriptioner och använda programvara för att skapa statistiska representationer av ljuden som utgör varje ord.

Bakgrund

Moderna taligenkänningssystem använder både en akustisk modell och en språkmodell för att representera talets statistiska egenskaper. Den akustiska modellen modellerar förhållandet mellan ljudsignalen och de fonetiska enheterna i språket. Språkmodellen ansvarar för att modellera ordsekvenserna i språket. Dessa två modeller kombineras för att få de högst rankade ordsekvenserna som motsvarar ett givet ljudsegment.

De flesta moderna taligenkänningssystem arbetar på ljudet i små bitar som kallas ramar med en ungefärlig varaktighet på 10 ms per bildruta. Den råa ljudsignalen från varje bildruta kan omvandlas genom att applicera mel-frekvensen cepstrum . Koefficienterna från denna transformation är allmänt kända som melfrequency cepstral coefficients (MFCC) och används som indata till den akustiska modellen tillsammans med andra funktioner.

Nyligen har användningen av Convolutional Neural Networks lett till stora förbättringar inom akustisk modellering.

Talljudegenskaper

Ljud kan kodas med olika samplingshastigheter (dvs. samplingar per sekund – det vanligaste är: 8, 16, 32, 44.1, 48 och 96 kHz), och olika bitar per sampel (det vanligaste är: 8-bitar, 16 -bitar, 24-bitar eller 32-bitar). Taligenkänningsmotorer fungerar bäst om den akustiska modellen de använder tränades med talljud som spelades in med samma samplingshastighet/bitar per sampel som det tal som känns igen.

Telefonibaserad taligenkänning

Den begränsande faktorn för telefonibaserad taligenkänning är den bandbredd med vilken tal kan sändas. Till exempel har en vanlig fast telefon bara en bandbredd på 64 kbit/s vid en samplingshastighet på 8 kHz och 8-bitar per sampel (8000 sampel per sekund * 8-bitar per sampel = 64000 bit/s). För telefonibaserad taligenkänning bör därför akustiska modeller tränas med 8 kHz/8-bitars talljudfiler.

I fallet med Voice over IP bestämmer codec samplingshastigheten/bitarna per sampel av talöverföring . Kodekar med högre samplingshastighet/bitar per sampling för talöverföring (som förbättrar ljudkvaliteten) kräver akustiska modeller tränade med ljuddata som matchar den samplingshastigheten/bitarna per sampling.

Skrivbordsbaserad taligenkänning

För taligenkänning på en vanlig stationär PC är den begränsande faktorn ljudkortet . De flesta ljudkort idag kan spela in med samplingshastigheter på mellan 16 kHz-48 kHz ljud, med bithastigheter på 8 till 16 bitar per sampling, och uppspelning vid upp till 96 kHz.

Som en allmän regel fungerar en taligenkänningsmotor bättre med akustiska modeller tränade med talljuddata inspelade med högre samplingshastigheter/bitar per sampel. Men att använda ljud med för hög samplingshastighet/bitar per sampel kan sakta ner igenkänningsmotorn. Det behövs en kompromiss. Sålunda för skrivbordstaligenkänning är den nuvarande standarden akustiska modeller tränade med talljuddata inspelade med samplingshastigheter på 16 kHz/16bitar per sampel.

externa länkar

Japanska akustiska modeller för användning med Julius
akustiska modeller med öppen källkod på VoxForge
HTK WSJ akustiska modeller för HTK