Audiovisuell taligenkänning

Audiovisuell taligenkänning (AVSR) är en teknik som använder bildbehandlingsfunktioner vid läppläsning för att hjälpa taligenkänningssystem att känna igen odeterministiska telefoner eller ge övervikt bland nästan sannolikhetsbeslut.

Varje system med läppläsning och taligenkänning fungerar separat, sedan blandas deras resultat vid fusionsstadiet. Som namnet antyder har den två delar. Den första är ljuddelen och den andra är den visuella delen. I ljuddelen använder vi funktioner som log mel spectrogram, mfcc etc. från råljudsamplen och vi bygger en modell för att få ut funktionsvektor ur den. För visuell del använder vi i allmänhet någon variant av faltningsneurala nätverk för att komprimera bilden till en funktionsvektor efter att vi sammanfogar dessa två vektorer (ljud och visuell) och försöker förutsäga målobjektet.

externa länkar