DELPH-IN

DELPH-IN
Akademiker

Disciplin: Formalismer:

Naturlig språkbehandling HPSG , MRS
DELPH-IN toppmöten
Öppnings: LissabonTopp (2005)
Senast: Virtual2021Top (2021)
Kommande: FairhavenTop (2022)

Deep Linguistic P rocessing med H PSG - IN itiative ( DELPH-IN ) är ett samarbete där datorlingvister världen över utvecklar bearbetningsverktyg för naturliga språk för djup lingvistisk bearbetning av mänskligt språk. Målet med DELPH-IN är att kombinera språkliga och statistiska bearbetningsmetoder för att beräkningsmässigt förstå innebörden av texter och yttranden.

De verktyg som utvecklats av DELPH-IN antar två språkliga formalismer för djup språklig analys, nämligen. huvuddriven frasstruktur grammatik (HPSG) och minimal rekursion semantik (MRS). Alla verktyg under DELPH-IN-samarbetet är utvecklade för allmän användning av öppen källkod .

Sedan 2005 har DELPH-IN hållit ett årligt toppmöte. Det här är en löst strukturerad unconference där människor uppdaterar varandra om det arbete de gör, söker feedback på aktuellt arbete och ibland träffar överenskommelser om standarder och bästa praxis.

DELPH-IN teknologier och resurser

DELPH-IN-samarbetet har successivt byggt beräkningsverktyg för djup språklig analys , såsom:

  • LKB-system (Linguistic Knowledge Builder): en grammatisk ingenjörsmiljö där lingvister kan bygga enande grammatiker med den huvuddrivna frasstrukturen grammatikformalism
  • PET-parser (plattform för experiment med effektiva HPSG-bearbetningstekniker): en öppen källkodsparser som producerar HPSG- parseträd med minimal rekursionssemantik (MRS) utdata
  • ACE-processor (Answer Constraint Engine): ett effektivt system för att bearbeta DELPH-IN-grammatik som ger HPSG- syntaktiska analyser med MRS- utgångar. Den senaste versionen av ACE kan meningar på naturligt språk .
  • LOGON-infrastrukturen är en samling programvara och DELPH-IN-grammatiker för att tillhandahålla överföringsbaserad maskinöversättning . LOGON-metoden för maskinöversättning har visat sig ge kvalitetsorienterade hybridöversättningar (regelbaserade och stokastiska).

Förutom djupa språkliga bearbetningsverktyg tillhandahåller DELPH-IN-samarbetet beräkningsresurser för Natural Language Processing såsom beräkningsbaserade HPSG-grammatiker och språkprototyper, t.ex.

  • DELPH-IN-grammatik : en katalog över HPSG-beräkningsgrammatik som är handgjord för att fånga djup lingvistisk analys som är specifik för respektive språk
  • LinGO Grammar Matrix : ett startkit med öppen källkod för snabb prototypframställning av precisionsgrammatik med bred täckning som är kompatibla med LKB. Den innehåller ett bibliotek med vanliga språkfenomen som beräkningsgrammatiker kan ärva för sina HPSG-grammatiker.
  • CLIMB-bibliotek (Comparative Libraries of Implementations with Matrix Basis): ett utökat språkbibliotek byggt på Grammar Matrix. Syftet med CLIMB-biblioteket är att upprätthålla alternativa analyser av samma fenomen över olika språk för att testa deras inverkan på långvarig grammatikutveckling.

Ett annat utbud av DELPH-IN-resurser skiljer sig inte från dataanvändningen för ytlig språklig bearbetning, såsom Text_corpus och treebanks :

  • MRS Test Suite : en kort men representativ uppsättning meningar utformade för att fånga några minimala semantiska rekursionsfenomen . Testsviterna finns på bulgariska, engelska, franska, tyska, grekiska, japanska, mandarin, norska, portugisiska, ryska och spanska.
  • Wikiwoods : WikiWoods är en analyserad korpus som tillhandahåller rika syntakto-semantiska kommentarer för den engelska Wikipedia.
  • DeepBank : ett pågående projekt för att kommentera en miljon ord i Wall Street Journal-texten från 1989 (samma uppsättning meningar kommenterade i det ursprungliga Penn Treebank-projektet) med English Resource Grammar, utökad med en robust approximativ PCFG för fullständig täckning.
  • Cathedral and the Bazaar : en sammanställning av en tidig uppsats om öppen källkod av Eric Raymond med översättningar till flera språk. Det föreslogs som en flerspråkig delad testsvit för att göra det möjligt för oss att jämföra analyser över olika grammatiker.

Den öppna källkodskulturen i DELPH-IN-samarbetet förser Natural Language Processing- gemenskapen med en rad djupa språkliga bearbetningsverktyg och resurser. Användbarheten av DELPH-IN-verktyg har dock varit ett problem för användare och applikationsutvecklare som är nya inom DELPH-IN-ekologin. [ citat behövs ] DELPH-IN-utvecklarna är medvetna om dessa användbarhetsproblem och det pågår pågående försök att förbättra dokumentationen och handledningarna för DELPH-IN-teknologier.

Se även

externa länkar