Speechbot

SpeechBot var en webbsökmotor för strömmande mediainnehåll utvecklad vid Compaqs (senare HP ) forskningslaboratorier i Cambridge, MA och Australien . Compaq lanserade webbplatsen på Streaming Media West 1999 i San Jose, CA. Internetradioprogrammen indexerade av SpeechBot inkluderade The Motley Fool , Fresh Air , Talk of the Nation , The Dr. Laura Program och Dreamland with Art Bell . I juni 2003 hade tjänsten indexerat över 17 000 timmar multimediainnehåll. Webbplatsen togs offline 2005, efter att HP stängde sitt forskningslabb i Cambridge.

SpeechBot-indexeringsarbetsflödet involverade en farm med Windows -arbetsstationer som hämtade strömmande innehållet; och ett Linux- kluster som kör taligenkänning för att transkribera det talade ljudet. Webbservern , sökindexet och metadatabiblioteket var värd på AlphaServers som körde Tru64 UNIX .

Om transkriptioner redan var tillgängliga, var dessa anpassade till ljudströmmen; annars producerades en ungefärlig transkription med hjälp av taligenkänning. Calista-igenkännaren som användes härleddes från Sphinx-3 . På grund av den låga kvaliteten på strömmande ljud vid den tiden ordfelfrekvensen ganska hög, men de flesta sökningar kunde fortfarande hämta relevanta träffar. Sökresultaten länkade till den offset i strömmen som motsvarade sökfrasen, så att användarna inte behövde lyssna på hela programmet för att hitta avsnittet av intresse.

Vidare läsning