GermaNet
GermaNet är ett semantiskt nätverk för det tyska språket . Den relaterar substantiv , verb och adjektiv semantiskt genom att gruppera lexikaliska enheter som uttrycker samma koncept i synsets och genom att definiera semantiska relationer mellan dessa synsets. GermaNet är gratis för akademiskt bruk efter att ha signerat en licens. GermaNet har mycket gemensamt med engelska WordNet och kan ses som en on-line synonymordbok eller en lätt ontologi . GermaNet har utvecklats och underhållits vid universitetet i Tübingen sedan 1997 inom forskargruppen för allmän och beräkningslingvistik. Den har integrerats i EuroWordNet , en flerspråkig lexikalisk-semantisk databas.
Databas
Innehåll
GermaNet delar upp det lexikala rummet i en uppsättning begrepp som är sammanlänkade av semantiska relationer. Ett semantiskt koncept modelleras av ett synset . Ett synset är en uppsättning ord (kallade lexikaliska enheter) där alla ord anses ha samma eller nästan samma betydelse. Således är ett synset en uppsättning synonymer grupperade under en definition, eller "glans".
Utöver glansen är synsets märkta med sin syntaktiska funktion och åtföljs av exempelmeningar för varje distinkt betydelse i synset. Precis som i WordNet är det semantiska utrymmet för varje ordkategori uppdelat i ett antal semantiska fält som är nära besläktade med större noder i det semantiska nätverket: Ort , eller "plats", Körper , eller "kropp", etc.
Från och med version 15.0 (släpp maj 2020), innehåller GermaNet:
- Synsets: 144113
- Lexikala enheter: 185 000
- Bokstaver: 169521
- Konceptuella relationer: 157921
- Lexikala relationer (synonymer uteslutna): 12203
- Splittrade föreningar: 98905
- Interlingual Index (ILI) Records: 28564
- Wiktionary Sense Descriptions: 29548
Formatera
All GermaNet-data lagras i en PostgreSQL- relationsdatabas . Databasschemat följer GermaNets interna struktur: det finns tabeller för att lagra synsets, lexikaliska enheter, konceptuella och lexikala relationer etc. GermaNet-data distribueras både i detta databasformat och som XML -filer. I XML-data representerar två typer av filer, en för synsets och den andra för relationer, alla tillgängliga data i GermaNet-databasen.
Gränssnitt
Det finns mjukvarubibliotek och API: er tillgängliga för Java , Python , JavaScript och Perl . Dessa program distribueras under fri programvara licenser och ger enkel tillgång till all information i olika versioner av GermaNet.
GermaNet Rover är en onlineapplikation som kan användas för att söka efter synsets i GermaNet, utforska data som är associerade med dem och beräkna den semantiska likheten mellan par av synsets. Den har visualiseringar av hypernym -relationen och avancerade filtreringsalternativ för synset-sökning.
Licenser
GermaNet 15.0 (släppt i maj 2020) kan distribueras under en av följande typer av licensavtal :
- Academic Research License Agreement : för forskning vid akademiska institutioner. Det finns ingen licensavgift för akademiskt bruk. Licenser ges inte till enskilda studenter, och de som söker licens måste prata med en akademisk rådgivare.
- Forsknings- och utvecklingslicensavtal : gäller icke-akademiska institutioner och forskningskonsortier. Används strikt för teknikutveckling och intern forskning.
- Kommersiellt licensavtal : gäller icke-akademiska institutioner och kommersiella företag. Det tillåter teknisk utveckling och intern forskning, samt ger den icke-exklusiv rätt att distribuera och marknadsföra alla härledda produkter eller tjänster.
Alternativ
Open-de-WordNet är ett fritt tillgängligt alternativ till GermaNet som är kompatibelt med WordNet .
Språkliga tillämpningar
GermaNet har använts för en mängd olika applikationer, inklusive:
- semantisk analys
- ytlig igenkänning av implicit dokumentstruktur
- föreningsanalys
- analysera sektionspreferenser
- disambiguation av ordkänsla
Se även
- Hyponym
- Är en
- Maskinläsbar ordbok
- Ontologi (informationsvetenskap)
- Semantiskt nätverk
- Semantisk webb
- Synonym Ring
- Taxonomi
- UBY-LMF
- Disambiguation av ordkänsla