Philipp Koehn
Philipp Koehn | |
---|---|
Född |
|
1 augusti 1971
Medborgarskap | Tyskland |
Alma mater | Albert Schweitzer High School (Erlangen) , University of Erlangen-Nuremberg , University of Tennessee , University of Southern California |
Känd för | Europarl corpus , Moses |
Utmärkelser | Finalist – 2013 EPO European Inventor Award |
Vetenskaplig karriär | |
Fält | datavetenskap , bearbetning av naturligt språk , maskinöversättning , informationssökning över flera språk |
institutioner | University of Edinburgh , Johns Hopkins University |
Doktorand rådgivare | Kevin Knight |
Philipp Koehn (född 1 augusti 1971 i Erlangen , Västtyskland ) är en datavetare och forskare inom området maskinöversättning . Hans huvudsakliga forskningsintresse är statistisk maskinöversättning och han är en av uppfinnarna av en metod som kallas frasbaserad maskinöversättning. Detta är ett underområde av statistiska översättningsmetoder som använder sekvenser av ord (eller så kallade "fraser") som grund för översättning, vilket utökar de tidigare ordbaserade metoderna. En artikel från 2003 som han skrev tillsammans med Franz Josef Och och Daniel Marcu kallad Statistisk frasbaserad översättning har väckt stor uppmärksamhet i maskinöversättningssamhället och har citerats över tusen gånger. Frasbaserade metoder används ofta i maskinöversättningstillämpningar inom industrin.
Philipp Koehn tog sin doktorsexamen i datavetenskap 2003 från University of Southern California , där han arbetade på Information Sciences Institute som rådgavs av Kevin Knight. Efter ett år som postdoktor under Michael Collins vid Massachusetts Institute of Technology, började han på University of Edinburgh som lektor vid School of Informatics 2005. Han utnämndes till läsare 2010 och professor 2012. 2014 var han utsedd till professor vid datavetenskapsavdelningen vid Johns Hopkins University , där han är knuten till Center for Language and Speech Processing .
Moses statistisk maskinöversättningsdekoder
Moses maskinöversättningsavkodare är ett projekt med öppen källkod som skapades av och underhålls under ledning av Philipp Koehn . Moses - avkodaren är en plattform för utveckling av statistiska maskinöversättningssystem som ges en parallell korpus för alla språkpar. Avkodaren utvecklades huvudsakligen av Hieu Hoang och Philipp Koehn vid University of Edinburgh och utökades under en Johns Hopkins University Summer Workshop och vidareutvecklades under Euromatrix- och GALE-projektfinansiering. Avkodaren (som är en del av en komplett statistisk maskinöversättningsverktygssats) är de facto riktmärket för forskning inom området.
Även om Koehn fortsätter att spela en viktig roll i utvecklingen av Moses, stöddes Moses-avkodaren av European Framework 6-projekten Euromatrix , TC-Star, European Framework 7-projekten EuroMatrixPlus , Let's MT, META-NET och MosesCore och DARPA GALE projekt, såväl som flera universitet som University of Edinburgh , University of Maryland , ITC-irst, Massachusetts Institute of Technology och andra. Betydande ytterligare bidragsgivare till Moses-avkodaren inkluderar Hieu Hoang, Chris Dyer, Josh Schroeder, Marcello Federico, Richard Zens och Wade Shen.
Europarl-korpus
Europarl -korpusen är en uppsättning dokument som består av Europaparlamentets arbete från 1996 till idag. Korpusen har sammanställts och utökats av en grupp forskare under ledning av Philipp Koehn vid University of Edinburgh . Uppgifterna som utgör korpusen extraherades från Europaparlamentets webbplats och förbereddes sedan för språklig forskning. Den senaste utgåvan (2012) omfattade upp till 60 miljoner ord per språk, med 21 europeiska språk representerade: romanska (franska, italienska, spanska, portugisiska, rumänska), germanska (engelska, holländska, tyska, danska, svenska), slaviska (bulgariska) , tjeckiska, polska, slovakiska, slovenska), finsk-ugriska (finska, ungerska, estniska), baltiska (lettiska, litauiska) och grekiska.
Övriga intressen och aktiviteter i kronologisk ordning
- Koehn är professor vid Johns Hopkins University där han fortsätter sin forskning om maskinöversättning genom sin anknytning till Center for Language and Speech Processing
- Koehn är professor och ordförande för maskinöversättning vid University of Edinburgh School of Informatics och bidrar till dess statistiska maskinöversättningsgrupp som organiserar workshops, seminarier och projekt relaterade till ämnet.
- Koehn har konsulterat SYSTRAN med jämna mellanrum mellan 2006 och 2011. SYSTRAN förvärvades av CLSI, ett koreanskt maskinöversättningsföretag i april 2014.
- Koehn arbetade för Facebook/META AI Research från 2018 till 2022.
- Koehn är också chefsforskare för Omniscien Technologies och aktieägare i Omniscien Technologies sedan 2007. Omniscien Technologies är ett privat företag som utvecklar och kommersialiserar maskinöversättningsteknik.
- Koehn skrev en bok med titeln "Statistical Machine Translation" 2009 och en bok med titeln "Neural Machine Translation" 2020.
Utmärkelser och erkännande
- 2013: En av tre finalister i kategorin Research for European Patent Office (EPO) 2013 European Inventor Award . Koehn erkändes för patent EP 1488338 B, Phrase-Based Joint Probability Model for Statistical Machine Translations, en översättningsmodell som använder matematiska sannolikheter för att bestämma den mest sannolika tolkningen av textbitar mellan främmande språk.
- 2015: Koehn mottog hederspriset från International Association for Machine Translation