Ontologibaserad dataintegration
Ontologibaserad dataintegration innebär användning av en eller flera ontologier för att effektivt kombinera data eller information från flera heterogena källor. Det är en av flera dataintegrationsmetoder och kan klassificeras som Global-As-View (GAV). Effektiviteten hos ontologibaserad dataintegration är nära knuten till konsistensen och uttrycksfullheten hos den ontologi som används i integrationsprocessen.
Bakgrund
Data från flera källor kännetecknas av flera typer av heterogenitet. Följande hierarki används ofta:
- Syntaktisk heterogenitet: är ett resultat av skillnader i representationsformat för data
- Schematisk eller strukturell heterogenitet: den ursprungliga modellen eller strukturen för att lagra data skiljer sig åt i datakällor vilket leder till strukturell heterogenitet. Schematisk heterogenitet som särskilt förekommer i strukturerade databaser är också en aspekt av strukturell heterogenitet.
- Semantisk heterogenitet : skillnader i tolkning av datas "innebörd" är källan till semantisk heterogenitet
- Systemheterogenitet: användning av olika operativsystem , hårdvaruplattformar leder till systemheterogenitet
Ontologier , som formella representationsmodeller med explicit definierade begrepp och namngivna relationer som länkar dem, används för att ta itu med frågan om semantisk heterogenitet i datakällor. Inom domäner som bioinformatik och biomedicin har den snabba utvecklingen, adoptionen och allmänhetens tillgänglighet av ontologier [1] gjort det möjligt för dataintegrationsgemenskapen att utnyttja dem för semantisk integrering av data och information.
Ontologiernas roll
Ontologier möjliggör entydig identifiering av enheter i heterogena informationssystem och hävdande av tillämpliga namngivna relationer som kopplar samman dessa enheter. Specifikt spelar ontologier följande roller:
- Innehållsförklaring
- Ontologin möjliggör korrekt tolkning av data från flera källor genom den explicita definitionen av termer och relationer i ontologin.
- Frågemodell
- I vissa system som SIMS formuleras frågan med ontologin som ett globalt frågeschema.
- Verifiering
- Ontologin verifierar de mappningar som används för att integrera data från flera källor. Dessa mappningar kan antingen vara användarspecificerade eller genererade av ett system.
Tillvägagångssätt som använder ontologier för dataintegration
Det finns tre huvudarkitekturer som implementeras i ontologibaserade dataintegrationsapplikationer, nämligen,
- Enskild ontologiansats
- En enkel ontologi används som en global referensmodell i systemet. Detta är det enklaste tillvägagångssättet eftersom det kan simuleras med andra tillvägagångssätt. SIMS ett framträdande exempel på detta tillvägagångssätt. Komponenten Structured Knowledge Source Integration i Research Cyc är ett annat framträdande exempel på detta tillvägagångssätt. (Titel = Utnyttja Cyc för att svara på kliniska forskares ad hoc-frågor). The Gellish Taxonomic Dictionary-Ontology följer också detta tillvägagångssätt.
- Flera ontologier
- Flera ontologier, som var och en modellerar en individuell datakälla, används i kombination för integration. Även om detta tillvägagångssätt är mer flexibelt än det enkla ontologiska tillvägagångssättet, kräver det skapande av kartläggningar mellan de multipla ontologierna. Ontologikartläggning är en utmanande fråga och är fokus för ett stort antal forskningsinsatser inom datavetenskap [2] . OBSERVER-systemet är ett exempel på detta tillvägagångssätt.
- Hybridmetoder Hybridmetoden
- innebär användning av flera ontologier som ansluter sig till ett gemensamt ordförråd på högsta nivå. Ordförrådet på toppnivå definierar de grundläggande termerna för domänen. Således gör hybridmetoden det lättare att använda flera ontologier för integration i närvaro av det gemensamma ordförrådet.
Se även
- Datakartläggning
- Integrering av företagsapplikationer
- Integrering av företagsinformation
- Ontologisk kartläggning
- Schemamatchning
Vidare läsning
- Chicco, D; Masseroli, M (2016). "Ontologibaserad förutsägelse och prioritering av genfunktionella kommentarer" . IEEE/ACM-transaktioner om beräkningsbiologi och bioinformatik . 13 (2): 248–260. doi : 10.1109/TCBB.2015.2459694 . PMID 27045825 . S2CID 2795344 .
- ^ a b c d e f H. Wache; T. Vögele; U. Visser; H. Stuckenschmidt; G. Schuster; H. Neumann; S. Hübner (2001). Ontologibaserad integration av information En undersökning av befintliga tillvägagångssätt . CiteSeerX 10.1.1.142.4390 .
- ^ Maurizio Lenzerini (2002). Dataintegration: Ett teoretiskt perspektiv (PDF) . s. 243–246.
- ^ a b A.P. Sheth (1999). "Ändra fokus på interoperabilitet i informationssystem: från system, syntax, struktur till semantik". Samverkande geografiska informationssystem. MF Goodchild, MJ Egenhofer, R. Fegeas och CA Kottman (red.), Kluwer Academic Publishers (PDF) . s. 5–30.
- ^ AHM02 Handledning 5: Dataintegration och medling; Bidragsgivare: B. Ludaescher, I. Altintas, A. Gupta, M. Martone, R. Marciano, X. Qian
- ^ "AHM02 Handledning 5: Dataintegration och medling" . users.sdsc.edu . Hämtad 2017-11-23 .
- ^ a b Y. Arens; C. Hsu; CA Knoblock (1996). Frågebehandling i sims informationsförmedlare (PDF) .
- ^ "Semantisk kunskapskällaintegration | Cycorp" . www.cyc.com . Arkiverad från originalet 2014-05-17.
- ^ "Använda Cyc för att besvara kliniska forskares ad hoc-frågor | Lenat | AI Magazine" . Arkiverad från originalet 2010-12-31 . Hämtad 2014-05-15 .
- ^ "Hem" . gellish.net .
- ^ E. Mena; V. Kashyap; A. Sheth; A. Illarramendi (1996). OBSERVERA: Ett tillvägagångssätt för frågebehandling i globala informationssystem baserad på interoperation över redan existerande ontologier ( PDF) .
- ^ Cheng Hian Goh (1997). Representera och resonera om semantiska konflikter i heterogena informationssystem ( PDF) .