Distributions-relationell databas

En distributions-relationell databas , eller ord-vektordatabas , är ett databashanteringssystem (DBMS) som använder distributionsord -vektorrepresentationer för att berika semantiken hos strukturerad data .

Eftersom distributionsordvektorer kan byggas automatiskt från storskaliga korpora , stödjer denna anrikning konstruktionen av databaser som kan bädda in storskalig sunt förnuftsbakgrundskunskap i deras verksamhet. Distributionsrelationella modeller kan appliceras på konstruktionen av schemaagnostiska databaser (databaser där användare kan fråga data utan att vara medvetna om dess schema ), semantisk sökning , schemaintegration och induktiva och abduktiva resonemang samt olika applikationer där en semantiskt flexibel kunskapsrepresentationsmodell behövs. Den största fördelen med distributions-relationella modeller jämfört med rent logiska/ semantiska webbmodeller är det faktum att de centrala semantiska associationerna automatiskt kan fångas från korpora i motsats till definitionen av manuellt kurerade ontologier och regelkunskapsbaser.

Fördelnings-relationsmodeller

Distributions-relationella modeller formaliserades först som en mekanism för att klara av det ordförråd/semantiska gapet mellan användare och schemat bakom data. I det här scenariot distributionsmått för semantisk släktskap, kombinerat med semantisk pivoteringsheuristik, stödja approximationen mellan användarfrågor (uttryckta i deras eget ordförråd) och data (uttryckt i designerns ordförråd).

I denna modell är databassymbolerna (entiteter och relationer) inbäddade i ett distributionssemantiskt utrymme och har en geometrisk tolkning under ett latent eller explicit semantiskt utrymme. Den geometriska aspekten stöder den semantiska approximationen mellan enheter från olika databaser eller mellan en frågeterm och en databasenhet. Den fördelningsrelationsmodellen blir då en dubbelskiktad modell där semantiken för den strukturerade datan ger den finkorniga semantiken som databasdesignern avser, vilken utökas med den distributionssemantiska modellen som innehåller de semantiska associationerna uttryckta vid en bredare användning. Dessa modeller stödjer generaliseringen från ett slutet kommunikationsscenario (där databasdesigners och användare lever i samma sammanhang, t.ex. samma organisation) till ett öppet kommunikationsscenario (t.ex. olika organisationer, webben), vilket skapar ett abstraktionsskikt mellan användare och specifik representation av den konceptuella modellen.

  1. ^ Harris, Z. (1954). "Distributionsstruktur". Ord. 10 (23): 146–162.
  2. ^   Métais, Elisabeth; Roche, Mathieu; Teisseire, Maguelonne (2014-06-16). Naturlig språkbehandling och informationssystem: 19:e internationella konferensen om tillämpningar av naturligt språk på informationssystem, NLDB 2014, Montpellier, Frankrike, 18-20 juni 2014. Proceedings . Springer. ISBN 978-3-319-07983-7 .
  3. ^ Freitas, A. "Schema-agnostiska frågor över databaser med stora scheman: en distributionssemantisk metod" PhD-avhandling, 2015
  4. ^ Freitas, A., Handschuh, S., Curry, E., Distribution-Relational Models: Scalable Semantics for Databases, AAAI Spring Symposium, Knowledge Representation & Reasoning Track, Stanford, 2014