Relationsutvinning

En relationsextraheringsuppgift kräver upptäckt och klassificering av semantiska relationsomnämnanden inom en uppsättning artefakter , vanligtvis från text- eller XML -dokument. Uppgiften är mycket lik den för informationsextraktion (IE), men IE kräver dessutom att upprepade relationer tas bort (disambiguation) och hänvisar i allmänhet till extrahering av många olika relationer.

Koncept och tillämpningar

Begreppet relationsextraktion introducerades först under den 7:e Message Understanding Conference 1998. Relationsextraktion involverar identifiering av relationer mellan entiteter och den fokuserar vanligtvis på utvinning av binära relationer. Tillämpningsdomäner där relationsextraktion är användbar inkluderar gen-sjukdomsrelationer, protein-proteininteraktion etc.

Aktuella studier av relationsextraktion använder maskininlärningsteknik, som närmar sig relationsextraktion som ett klassificeringsproblem. Never-Ending Language Learning är ett semantiskt maskininlärningssystem utvecklat av ett forskarteam vid Carnegie Mellon University som extraherar relationer från den öppna webben .

Närmar sig

Det finns flera metoder som används för att extrahera relationer och dessa inkluderar textbaserad relationsextraktion. Dessa metoder förlitar sig på användningen av förtränad relationsstrukturinformation eller så kan det innebära att man lär sig strukturen för att avslöja relationer. Ett annat tillvägagångssätt för detta problem involverar användningen av domänontologier . Det finns också ett tillvägagångssätt som involverar visuell detektering av meningsfulla relationer i parametriska värden för objekt listade i en datatabell som skiftar positioner när tabellen permuteras automatiskt som kontrolleras av mjukvaruanvändaren. Den dåliga täckningen, sällsyntheten och utvecklingskostnaderna relaterade till strukturerade resurser som semantiska lexikon (t.ex. WordNet , UMLS ) och domänontologier (t.ex. Gene Ontology ) har gett upphov till nya angreppssätt baserade på bred, dynamisk bakgrundskunskap på webben. Till exempel, ARCHILES-tekniken använder endast Wikipedia och sökmotors sidräkning för att skaffa grovkorniga relationer för att konstruera lättviktsontologier.

Relationerna kan representeras med en mängd olika formalismer/språk. Ett sådant representationsspråk för data på webben är RDF .

På senare tid har end-to-end-system som gemensamt lär sig att extrahera entitetsomnämnanden och deras semantiska relationer föreslagits med stor potential att uppnå hög prestanda.

De flesta av de rapporterade systemen har visat sitt tillvägagångssätt på engelska dataset. Data och system har dock beskrivits för andra språk, t.ex. ryska och vietnamesiska .

Datauppsättningar

Forskare har konstruerat flera datamängder för benchmarking av relationsextraktionsmetoder. En sådan datauppsättning var relationsextraktionsdatauppsättningen på dokumentnivå kallad DocRED som släpptes 2019. Den använder relationer från Wikidata och text från engelska Wikipedia . Datauppsättningen har använts av andra forskare och en förutsägelsetävling har satts upp på CodaLab.

Se även