LipNet

LipNet är ett djupt neuralt nätverk för visuell taligenkänning . Den skapades av Yannis Assael, Brendan Shillingford, Shimon Whiteson och Nando de Freitas , forskare från University of Oxford . Tekniken, som beskrivs i en artikel i november 2016, kan avkoda text från rörelsen i en talares mun. Traditionella metoder för visuell taligenkänning delade upp problemet i två steg: att designa eller lära sig visuella funktioner och förutsägelse. LipNet var den första läppavläsningsmodellen på meningsnivå som lärde sig rumsliga visuella egenskaper och en sekvensmodell samtidigt. Audiovisuell taligenkänning har en enorm praktisk potential, med tillämpningar i förbättrade hörapparater, medicinska tillämpningar, som att förbättra tillfrisknandet och välbefinnandet hos kritiskt sjuka patienter, och taligenkänning i bullriga miljöer, som Nvidias autonoma fordon .