Datautbyte

Datautbyte är processen att ta data strukturerad under ett källschema och omvandla det till ett målschema , så att måldatan är en korrekt representation av källdata. Datautbyte gör att data kan delas mellan olika datorprogram.

Det liknar det relaterade konceptet med dataintegration förutom att data faktiskt omstruktureras (med eventuell förlust av innehåll) vid datautbyte. Det kanske inte finns något sätt att transformera en instans med tanke på alla begränsningar. Omvänt kan det finnas många sätt att transformera instansen (möjligen oändligt många), i vilket fall ett "bästa" val av lösningar måste identifieras och motiveras.

Datautbyte på en domän

I vissa domäner kan det finnas några dussin olika käll- och målscheman (proprietära dataformat). Ett "utbyte" eller "utbytesformat" utvecklas ofta för en enskild domän, och sedan skrivs nödvändiga rutiner (mappningar) för att (indirekt) transformera/översätta varje källschema till varje målschema genom att använda utbytesformatet som ett mellansteg. Det kräver mycket mindre arbete än att skriva och felsöka de hundratals olika rutiner som skulle krävas för att direkt översätta varje källschema direkt till varje målschema.

Exempel på dessa transformativa utbytesformat inkluderar:

Språk för datautbyte

Ett språk/format för datautbyte (eller utbyte) är ett språk som är domänoberoende och kan användas för data från alla slags discipliner. De har "utvecklats från att vara uppmärknings- och visningsorienterade för att ytterligare stödja kodningen av metadata som beskriver informationens strukturella attribut."

Praxis har visat att vissa typer av formella språk är bättre lämpade för denna uppgift än andra, eftersom deras specifikation drivs av en formell process istället för särskilda behov av mjukvaruimplementering. Till exempel XML ett märkningsspråk som utformats för att möjliggöra skapandet av dialekter (definitionen av domänspecifika underspråk). Den innehåller dock inga domänspecifika ordböcker eller faktatyper. Fördelaktigt för ett tillförlitligt datautbyte är tillgången på standardordböcker-taxonomier och verktygsbibliotek som tolkar , schemavaliderare och transformationsverktyg . [ citat behövs ]

Populära språk som används för datautbyte

Följande är en ofullständig lista över populära generiska språk som används för datautbyte i flera domäner.


Namn/förkortning Schema Flexibel Semantisk verifiering Lexikon Informationsmodell Synonymer och homonymer Dialektering Webbstandard Transformationer Lättvikt Människoläsbar Kompatibilitet
RDF Ja Ja Ja Ja Ja Ja Ja Ja Ja Ja Partiell Delmängd av semantisk webb
XML Ja Ja Nej Nej Nej Nej Ja Ja Ja Nej Ja delmängd av SGML , HTML
Atom Ja Okänd Okänd Okänd Nej Okänd Ja Ja Ja Nej Nej XML- dialekt
JSON Nej Okänd Okänd Okänd Nej Okänd Nej Ja Nej Ja Ja delmängd av YAML
YAML Nej Okänd Okänd Okänd Nej Okänd Nej Nej Nej Ja Ja superset av JSON
REBOL Ja Ja Nej Ja Nej Ja Ja Nej Ja Ja Ja
Gelaktig Ja Ja Ja Ja Nej Ja Ja ISO Nej Ja Partiell SQL, RDF/XML, OWL

Nomenklatur

  • Schema – Om språkdefinitionen är tillgänglig i en datortolkbar form
  • Flexibel – om språket möjliggör förlängning av de semantiska uttrycksmöjligheterna utan att ändra schemat
  • Semantisk verifiering – Huruvida språkdefinitionen möjliggör semantisk verifiering av korrektheten av uttryck i språket
  • Ordbok-Taxonomi – Om språket inkluderar en ordbok och en taxonomi (subtyp-supertyphierarki) av begrepp med arv
  • Synonymer och homonymer – Om språket inkluderar och stöder användningen av synonymer och homonymer i uttrycken
  • Dialektering – Om språkdefinitionen är tillgänglig på flera naturliga språk eller dialekter
  • Webb- eller ISO-standard – Organisation som godkände språket som standard
  • Transformationer – Om språket innehåller en översättning till andra standarder
  • Lättvikt – Om en lättviktsversion finns tillgänglig, förutom en fullversion
  • Människoläsbara – Huruvida uttryck i språket är mänskligt läsbara (läsbara av människor utan träning)
  • Kompatibilitet – Vilka andra verktyg är möjliga att använda eller krävs när man använder språket

Anmärkningar:

  1. ^ RDF är ett schemaflexibelt språk.
  2. ^ Schemat för XML innehåller en mycket begränsad grammatik och ordförråd.
  3. ^ Finns som tillägg.
  4. ^ I standardformatet, inte den kompakta syntaxen.
  5. ^ Syntaxen är ganska enkel (språket utformades för att vara läsbart för människor); dialekterna kan kräva domänkunskap .
  6. ^ De standardiserade faktatyperna betecknas med standardiserade engelska fraser, vilka tolkning och användning kräver viss träning.
  7. ^ Parse -dialekten används för att specificera, validera och transformera dialekter.
  8. ^ Den engelska versionen innehåller en gellish English Dictionary-Taxonomy som också inkluderar standardiserade faktatyper (= typer av relationer).

XML för datautbyte

Populariteten för XML för datautbyte på World Wide Web har flera anledningar. Först och främst är det nära besläktat med de redan existerande standarderna Standard Generalized Markup Language (SGML) och Hypertext Markup Language (HTML), och som sådan kan en parser skriven för att stödja dessa två språk enkelt utökas till att stödja XML också. Till exempel har XHTML definierats som ett format som är formellt XML, men som förstås korrekt av de flesta (om inte alla) HTML-tolkare.

YAML för datautbyte

YAML är ett språk som utformats för att vara läsbart för människor (och som sådant för att vara lätt att redigera med vilken standardtextredigerare som helst). Dess föreställning liknar ofta reStructuredText eller en Wiki-syntax, som också försöker vara läsbar för både människor och datorer. YAML 1.2 innehåller också en förkortning som är kompatibel med JSON, och som sådant är alla JSON-dokument också giltiga YAML; detta gäller dock inte åt andra hållet.

REBOL för datautbyte

REBOL är ett språk som är designat för att vara läsbart för människor och lätt att redigera med vilken standardtextredigerare som helst. För att uppnå detta använder den en enkel friformssyntax med minimal interpunktion och en rik uppsättning datatyper. REBOL-datatyper som URL:er, e-postmeddelanden, datum- och tidsvärden, tupler, strängar, taggar, etc. respekterar de vanliga standarderna. REBOL är designat för att inte behöva något extra metaspråk, eftersom det är designat på ett metacirkulärt sätt. Språkets metacirkularitet är anledningen till att t.ex. Parse-dialekten som används (inte uteslutande) för definitioner och transformationer av REBOL-dialekter också i sig är en dialekt av REBOL. REBOL användes som en inspirationskälla för JSON.

Gelish för datautbyte

Gellish English är en formaliserad delmängd av naturlig engelska, som inkluderar en enkel grammatik och en stor utvidgbar English Dictionary-Taxonomy som definierar den allmänna och domänspecifika terminologin (termer för begrepp), medan begreppen är ordnade i en subtyp-supertyphierarki (en taxonomi), som stöder nedärvning av kunskap och krav. Ordbok-Taxonomin inkluderar även standardiserade faktatyper (även kallade relationstyper). Termerna och relationstyperna tillsammans kan användas för att skapa och tolka uttryck för fakta, kunskap, krav och annan information. Gellish kan användas i kombination med SQL , RDF/XML , OWL och olika andra metaspråk. Gellish-standarden är en kombination av ISO 10303-221 (AP221) och ISO 15926.

Se även