Ontologi lärande

Ontologiinlärning ( ontologiextraktion , ontologigenerering eller ontologiinhämtning ) är det automatiska eller halvautomatiska skapandet av ontologier , inklusive att extrahera motsvarande domäns termer och relationerna mellan begreppen som dessa termer representerar från en korpus av naturligt språktext, och kodning dem med ett ontologispråk för enkel hämtning. Eftersom att bygga ontologier manuellt är extremt arbetskrävande och tidskrävande, finns det stor motivation att automatisera processen.

Vanligtvis börjar processen med att extrahera termer och begrepp eller substantivfraser från vanlig text med hjälp av språkliga processorer som ordordstaggning och fraschunking . Sedan används statistiska eller symboliska tekniker för att extrahera relationssignaturer , ofta baserade på mönsterbaserade eller definitionsbaserade hypernymextraktionstekniker.

Procedur

Ontologiinlärning (OL) används för att (halv)automatiskt extrahera hela ontologier från naturliga språktexter. Processen är vanligtvis uppdelad i följande åtta uppgifter, som inte alla nödvändigtvis tillämpas i varje ontologiinlärningssystem.

Utvinning av domänterminologi

Under steget för extraktion av domänterminologi extraheras domänspecifika termer, som används i följande steg (konceptupptäckt) för att härleda begrepp. Relevanta termer kan bestämmas t.ex. genom beräkning av TF/IDF- värdena eller genom tillämpning av C-värde/NC-värdemetoden. Den resulterande listan med termer måste filtreras av en domänexpert. I det efterföljande steget, på samma sätt som coreference resolution i informationsextraktion , bestämmer OL-systemet synonymer, eftersom de delar samma betydelse och därför motsvarar samma koncept. De vanligaste metoderna är därför klustring och tillämpning av statistiska likhetsmått.

Koncept upptäckt

I begreppsupptäcktssteget grupperas termer till betydelsebärande enheter, som motsvarar en abstraktion av världen och därmed begrepp . De grupperade termerna är dessa domänspecifika termer och deras synonymer, som identifierades i steget för extraktion av domänterminologi.

Begreppshierarki härledning

I steget för begreppshierarki härledning försöker OL-systemet ordna de extraherade begreppen i en taxonomisk struktur. Detta uppnås mestadels med oövervakade hierarkiska klustringsmetoder . Eftersom resultatet av sådana metoder ofta är bullrigt, läggs ett övervakningssteg till, t.ex. användarutvärdering. En ytterligare metod för att härleda en begreppshierarki existerar i användningen av flera mönster som bör indikera ett sub- eller supersumptionsförhållande . Mönster som "X, det vill säga ett Y" eller "X är ett Y" indikerar att X är en underklass till Y. Sådana mönster kan analyseras effektivt, men de förekommer ofta för sällan för att extrahera tillräckligt med sub- eller översumptionssamband. Istället utvecklas bootstrapping-metoder, som lär sig dessa mönster automatiskt och därför säkerställer en bredare täckning.

Inlärning av icke-taxonomiska relationer

I inlärningssteget av icke-taxonomiska relationer extraheras relationer som inte uttrycker någon sub- eller övertagande. Sådana relationer är t.ex. arbeten för eller lokaliserade. Det finns två vanliga tillvägagångssätt för att lösa denna deluppgift. Den första är baserad på utvinning av anonyma associationer, som namnges på lämpligt sätt i ett andra steg. Det andra tillvägagångssättet extraherar verb, som indikerar en relation mellan enheter, representerade av de omgivande orden. Resultatet av båda tillvägagångssätten måste utvärderas av en ontolog för att säkerställa noggrannheten.

Regel upptäckt

Under regelupptäckt genereras axiom (formell beskrivning av begrepp) för de extraherade begreppen. Detta kan uppnås t.ex. genom att analysera den syntaktiska strukturen hos en naturlig språkdefinition och tillämpningen av transformationsregler på det resulterande beroendeträdet. Resultatet av denna process är en lista över axiom, som i efterhand förstås till en begreppsbeskrivning. Denna utdata utvärderas sedan av en ontolog.

Ontologipopulation

I detta steg utökas ontologin med instanser av begrepp och egenskaper. För förstärkning med instanser av begrepp används metoder baserade på matchning av lexiko-syntaktiska mönster. Förekomster av egenskaper läggs till genom tillämpning av bootstrapping-metoder , som samlar in relationstupler.

Begreppshierarkiförlängning

I detta steg försöker OL-systemet utöka den taxonomiska strukturen för en existerande ontologi med ytterligare begrepp. Detta kan utföras på ett övervakat sätt med en utbildad klassificerare eller på ett oövervakat sätt genom tillämpning av likhetsmått .

Ram och händelsedetektering

Under ram-/händelsedetektering försöker OL-systemet extrahera komplexa relationer från text, t.ex. vem som lämnade var till vilken plats och när. Tillvägagångssätt sträcker sig från att tillämpa SVM med kärnmetoder till semantisk rollmärkning (SRL) till djupa semantiska analystekniker .

Verktyg

Dog4Dag (Dresden Ontology Generator for Directed Acyclic Graphs) är ett plugin för ontologigenerering för Protégé 4.1 och OBOEdit 2.1. Det möjliggör termgenerering, syskongenerering, definitionsgenerering och relationsinduktion. Integrerad i Protégé 4.1 och OBO-Edit 2.1, tillåter DOG4DAG ontologiutvidgning för alla vanliga ontologiformat (t.ex. OWL och OBO). Begränsad till stor del till EBI och Bio Portal lookup service extensions.

Se även

Bibliografi

  • P. Buitelaar, P. Cimiano (red.). Ontology Learning and Population: Bridging the Gap between Text and Knowledge , Serieinformation for Frontiers in Artificial Intelligence and Applications , IOS Press, 2008.
  • P. Buitelaar, P. Cimiano och B. Magnini (red.). Ontology Learning from Text: Methods, Evaluation and Applications , Serieinformation for Frontiers in Artificial Intelligence and Applications , IOS Press, 2005.
  • Wong, W. (2009), " Lära sig lättviktsontologier från text över olika domäner med hjälp av webben som bakgrundskunskap" . Doctor of Philosophy avhandling, University of Western Australia.
  • Wong, W., Liu, W. & Bennamoun, M. (2012), " Ontology Learning from Text: A Look back and into the Future ". ACM Computing Surveys, volym 44, nummer 4, sidorna 20:1-20:36.
  • Thomas Wächter, Götz Fabian, Michael Schroeder: DOG4DAG: semi-automated ontology generation in OBO-Edit and Protégé. SWAT4LS London, 2011. doi : 10.1145/2166896.2166926