Schema-agnostiska databaser

Schema-agnostiska databaser eller ordförrådsoberoende databaser syftar till att hjälpa användare att abstraheras från representationen av data, vilket stöder den automatiska semantiska matchningen mellan frågor och databaser . Schema-agnosticism är egenskapen hos en databas för att kartlägga en fråga som utfärdas med användarterminologin och strukturen, automatiskt mappa den till datamängdsordförrådet.

Ökningen av storleken och den semantiska heterogeniteten hos databasscheman medför nya krav för användare som frågar och söker efter strukturerad data . I denna skala kan det bli omöjligt för datakonsumenter att vara bekanta med representationen av data för att fråga efter den. I centrum för denna diskussion är den semantiska klyftan mellan användare och databaser, som blir mer central i takt med att datas omfattning och komplexitet växer.

Beskrivning

Utvecklingen av datamiljöer mot konsumtion av data från flera datakällor och tillväxten i schemastorlek, komplexitet , dynamik och decentralisering ( SCoDD ) för scheman ökar komplexiteten i modern datahantering. SCoDD-trenden framträder som en central datahanteringsfråga i Big Data- scenarier, där användare och applikationer har ett behov av mer fullständig data, producerad av oberoende datakällor, under olika semantiska antaganden och användningssammanhang, vilket är det typiska scenariot för Semantic Web Dataapplikationer.

Utvecklingen av databaser i riktning mot heterogena datamiljöer påverkar starkt användbarheten, semiotik och semantiska antaganden bakom befintliga datatillgänglighetsmetoder som strukturerade frågor, nyckelordsbaserade sökningar och visuella frågesystem. Med schemalösa databaser som innehåller potentiellt miljontals dynamiskt föränderliga attribut, blir det omöjligt för vissa användare att bli medvetna om "schemat" eller ordförrådet för att fråga i databasen. I denna skala kan ansträngningen att förstå schemat för att bygga en strukturerad fråga bli oöverkomlig.

Schema-agnostiska frågor

Schema-agnostiska frågor kan definieras som frågemetoder över strukturerade databaser som tillåter användare att tillfredsställa komplexa informationsbehov utan att förstå representationen (schemat) av databasen. På liknande sätt har Tran et al. definierar det som "sökmetoder, som inte kräver att användarna känner till schemat som ligger bakom data". Tillvägagångssätt som nyckelordsbaserad sökning över databaser tillåter användare att söka i databaser utan att använda strukturerade frågor. Men som diskuterats av Tran et al.: "Från dessa punkter måste dock användare göra ytterligare navigering och utforskning för att tillgodose komplexa informationsbehov. Till skillnad från nyckelordssökning som används på webben, som fokuserar på enkla behov, är nyckelordssökningen som utvecklas här. används för att få mer komplexa resultat. Istället för en enda uppsättning resurser är målet att beräkna komplexa uppsättningar av resurser och deras relationer."

Utvecklingen av metoder för att stödja naturliga språkgränssnitt (NLI) över databaser har syftat till målet med schemaagnostiska frågor. Som komplement har vissa tillvägagångssätt baserade på nyckelordssökning riktade sökordsbaserade frågor som uttrycker mer komplexa informationsbehov. Andra tillvägagångssätt har undersökt konstruktionen av strukturerade frågor över databaser där schemabegränsningar kan mildras. Alla dessa tillvägagångssätt (naturligt språk, nyckelordsbaserad sökning och strukturerade frågor) har inriktat sig på olika grader av sofistikering för att ta itu med problemet med att stödja en flexibel semantisk matchning mellan frågor och data, som varierar från den fullständiga frånvaron av den semantiska angelägenheten till mer principiell semantisk modeller. Även om kravet på schema-agnosticism har varit ett implicit krav över semantiska sökningar och frågesystem för naturliga språk över strukturerad data, är det inte tillräckligt individuellt som ett koncept och som ett nödvändigt krav för samtida databashanteringssystem. De senaste arbetena har börjat definiera och modellera de semantiska aspekterna som är involverade i schemaagnostiska frågor.

Schema-agnostiska strukturerade frågor

Består av schemaagnostiska frågor som följer syntaxen för en strukturerad standard (till exempel SQL , SPARQL ) . Operatörernas syntax och semantik bibehålls, medan olika terminologier används.

Exempel 1

VÄLJ ?y { BillClinton hasDaughter ?x . ?x gift med ?y . }

som mappas till följande SPARQL- fråga i datauppsättningens ordförråd:

  
  
  
  
  

     
    
    
  PREFIX  :  <http://dbpedia.org/resource/>  PREFIX  dbpedia2  :  <http://dbpedia.org/property/>  PREFIX  dbpedia  :  <http://dbpedia.org/ontology/>  PREFIX  skos  :  <http: //www.w3.org/2004/02/skos/core#>  PREFIX  dbo  :  <http://dbpedia.org/ontology/>  VÄLJ  ?y  {  :  Bill_Clinton  dbpedia  :  child  ?x  .  ?x  dbpedia2  :  make  ?y  .  }

Exempel 2

    
            
            
            
            
   VÄLJ  ?x  {  ?x  är en  bok  .  ?x  av  William_Goldman  .  ?x  has_pages  ?p  .  FILTER  (  ?p  >  300  )  }

som mappas till följande SPARQL- fråga i datauppsättningens ordförråd:

  
  
  
  
  
            
             
            
  
 PREFIX  rdf  :  <http://www.w3.org/1999/02/22-rdf-syntax-ns#>  PREFIX  :  <http://dbpedia.org/resource/>  PREFIX  dbpedia2  :  <http://dbpedia .org/property/>  PREFIX  dbpedia  :  <http://dbpedia.org/ontology/>  VÄLJ  ?x  {  ?x  rdf  :  typ  dbpedia  :  Bok  .  ?x  dbpedia2  :  författare  :  William_Goldman  .  ?x  dbpedia  :  numberOfPages  ?s  .  FILTER  (  ?p  >  300  )  }

Schema-agnostiska sökordsfrågor

Består av schemaagnostiska frågor som använder sökordsfrågor. I det här fallet skiljer sig syntaxen och semantiken för operatorer från den strukturerade frågesyntaxen.

Exempel

 "Bill Clintons dotter gift med" "

 Böcker av William Goldman med mer än 300 sidor"

Semantisk komplexitet

Från och med 2016 har konceptet med schemaagnostiska frågor utvecklats främst inom den akademiska världen. De flesta schema-agnostiska frågesystem har undersökts i samband med Natural Language Interfaces över databaser eller över den semantiska webben . Dessa arbeten utforskar tillämpningen av semantiska analystekniker över stora, heterogena och schemalösa databaser. På senare tid har individualiseringen av begreppet schemaagnostiska frågesystem och databaser dykt upp mer explicit i litteraturen. Freitas et al. tillhandahålla en probabilistisk modell för den semantiska komplexiteten i kartläggning av schemaagnostiska frågor.