Semantiskt lexikon

En visuell representation av ett semantiskt lexikon

Ett semantiskt lexikon är en digital ordbok med ord märkta med semantiska klasser så att associationer kan dras mellan ord som inte tidigare har påträffats. Semantiska lexikon bygger på semantiska nätverk , som representerar de semantiska relationerna mellan ord. Skillnaden mellan ett semantiskt lexikon och ett semantiskt nätverk är att ett semantiskt lexikon har definitioner för varje ord, eller en "glans".

Strukturera

Semantiska lexikon består av lexikaliska poster. Dessa poster är inte ortografiska, utan semantiska, vilket eliminerar problem med homonymi och polysemi. Dessa lexikala poster är sammankopplade med semantiska relationer , såsom hyperonymi, hyponymi, meronymi eller troponymi. Synonyma poster är grupperade i vad Princeton WordNet kallar " synsets " De flesta semantiska lexikon består av fyra olika "undernät": substantiv, verb, adjektiv och adverb, även om vissa forskare har vidtagit åtgärder för att lägga till en "konstgjord nod". " sammankopplar subnäten.

Substantiv

Substantiv är ordnade i en taxonomi , strukturerade i en hierarki där det bredaste och mest omfattande substantivet är placerat överst, till exempel "sak", med substantiven som blir mer och mer specifika ju längre de är från toppen. Det allra översta substantivet i ett semantiskt lexikon kallas en unik nybörjare . De mest specifika substantiven (de som inte har några underordnade) är terminalnoder .

Semantiska lexikon skiljer också mellan typer, där en typ av något har kännetecken av att en sak som en Rhodesian Ridgeback är en typ av hund, och instanser, där något är ett exempel på sagda sak, till exempel Dave Grohl är en instans av en musiker . Instanser är alltid terminalnoder eftersom de är ensamma och inte har andra ord eller ontologiska kategorier som hör till dem.

Semantiska lexikon tar också upp meronymi , som är en "del-till-helhet"-relation, till exempel nycklar är en del av en bärbar dator. De nödvändiga attributen som definierar en specifik post finns också nödvändigtvis i postens hyponym . Så om en dator har nycklar , och en bärbar dator är en typ av dator , måste en bärbar dator ha nycklar . Det finns dock många fall där denna distinktion kan bli vag. Ett bra exempel på detta är artikelstolen . De flesta skulle definiera en stol som att ha ben och en sits (som i den del man sitter på). Det finns dock några väldigt "konstnärliga" och "moderna" stolar i dyra butiker som inte har ben alls. Beanbags har inte heller ben, men få skulle hävda att de inte är stolar. Frågor som dessa är kärnfrågorna som driver forskning och arbete inom områdena taxonomi och ontologi .

Verb

Verb synsets är ordnade ungefär som deras substantivmotsvarigheter: de mer allmänna och omfattande verben är nära toppen av hierarkin medan troponymer (verb som beskriver ett mer specifikt sätt att göra något) är grupperade under. Verbspecificitet rör sig längs en vektor , med verben som blir mer och mer specifika med hänvisning till en viss kvalitet. Till exempel. Uppsättningen "gå/springa/sprint" blir mer specifik när det gäller hastigheten, och "ogilla/hatar/avsky" blir mer specifik när det gäller intensiteten i känslan.

De ontologiska grupperingarna och separationerna av verb är mycket mer argumenterande än deras substantivmotsvarigheter. Det är allmänt accepterat att en hund är en typ av djur och att en pall är en typ av stol , men det kan hävdas att avsky är på samma känslomässiga plan som hat (att de är synonymer och inte överordnade/underordnade). Man kan också hävda att kärlek och tillbedjan är synonymer, eller att det ena är mer specifikt än det andra. Relationerna mellan verb är alltså inte lika överenskomna som substantivens.

Ett annat attribut för verb synset relationer är att det också ordnas i verbpar. I dessa par innebär det ena verbet nödvändigtvis det andra på det sätt som massakern innebär att döda och veta innebär att tro . Dessa verbpar kan vara troponymer och deras överordnade, som är fallet i det första exemplet, eller de kan vara i helt olika ontologiska kategorier, som i fallet i det andra exemplet.

Adjektiv

Adjektiv synset relationer är mycket lika verb synset relationer. De är inte riktigt lika snyggt hierarkiska som substantivet synset-relationer, och de har färre nivåer och fler terminalnoder. Det finns dock i allmänhet färre terminalnoder per ontologisk kategori i adjektiv synset-relationer än verb. Adjektiv i semantiska lexikon är också organiserade i ordpar, med skillnaden att deras ordpar är antonymer istället för entailments . Mer generiska polära adjektiv som varmt och kallt , eller glad och ledsen , paras ihop. Sedan är andra adjektiv som är semantiskt lika kopplade till vart och ett av dessa ord. Varmt är kopplat till varmt , uppvärmt , fräsande och svällande , medan kallt är kopplat till svalt , kyligt , frysande och nappigt . Dessa semantiskt likartade adjektiv anses vara indirekta antonymer till det motsatta polära adjektivet (dvs nippy är en indirekt antonym till hot ). Adjektiv som härrör från ett verb eller ett substantiv är också direkt kopplade till nämnda verb eller substantiv över undernät. Till exempel njutbar kopplad till de semantiskt likartade adjektiven behaglig , och trevlig , samt till dess ursprungsverb, njut .

Adverb

Det finns väldigt få adverb som redovisas i semantiska lexikon. Detta beror på att de flesta adverb är tagna direkt från sina adjektivmotsvarigheter, i både betydelse och form, och ändras endast morfologiskt (dvs. lyckligt härstammar från lycklig , och lyckligtvis härleds från lycklig , som härrör från tur ). De enda adverb som redovisas specifikt är de utan dessa kopplingar, som egentligen , mestadels och knappast .

Utmaningar som semantiska lexikon står inför

Effekterna av Princeton WordNet -projektet sträcker sig långt förbi engelska, även om den mesta forskningen inom området kretsar kring det engelska språket. Att skapa ett semantiskt lexikon för andra språk har visat sig vara mycket användbart för Natural Language Processing- applikationer. En av huvudinriktningarna för forskning inom semantiska lexikon är att länka lexikon för olika språk för att underlätta maskinöversättning . Det vanligaste tillvägagångssättet är att försöka skapa en delad ontologi som fungerar som en sorts "mellanhand" mellan semantiska lexikon för två olika språk. Detta är ett extremt utmanande och ännu olöst problem inom maskinöversättningsområdet. En fråga uppstår från det faktum att inga två språk är ord-för-ord-översättningar av varandra. Det vill säga att varje språk har någon form av strukturell eller syntaktisk skillnad från alla andra. Dessutom har språk ofta ord som inte lätt översätts till andra språk, och absolut inte med en exakt matchning från ord till ord. Förslag har lagts fram för att skapa ett fast ramverk för ordnät. Forskning har visat att varje känt mänskligt språk har någon form av begrepp som liknar synonymi , hyponymi , meronymi och antonymi . Men varje idé som hittills föreslagits har mötts av kritik för att använda ett mönster som fungerar bäst för engelska och mindre för andra språk.

Ett annat hinder på området är att det inte finns några fasta riktlinjer för semantiskt lexikons ramverk och innehåll. Varje lexikonprojekt på olika språk har haft en något (eller inte så lite) inställning till sitt ordnät. Det finns inte ens en överenskommen definition av vad ett "ord" är. Ortografiskt definieras de som en sträng av bokstäver med mellanslag på vardera sidan, men semantiskt blir det ett mycket omdiskuterat ämne. Till exempel, även om det inte är svårt att definiera hund eller spö som ord, men hur är det med vakthund eller blixtstång ? De två sistnämnda exemplen skulle betraktas som ortografiskt separata ord, även om de semantiskt utgör ett begrepp: ett är en typ av hund och ett är en typ av spö. Utöver dessa förväxlingar är ordnät också egendomliga , eftersom de inte konsekvent etiketterar objekt. De är överflödiga, eftersom de ofta har flera ord tilldelade varje betydelse (synset). De är också öppna, eftersom de ofta fokuserar på och sträcker sig in i terminologi och domänspecifikt ordförråd.

Andra namn

  • wordnet
  • beräkningslexikon

Lista över semantiska lexikon

Se även