Datakartläggning
Datatransformationskoncept |
---|
_ |
Transformationsspråk |
Tekniker och transformationer |
Ansökningar |
Relaterad |
Inom databehandling och datahantering är datamappning processen att skapa dataelementmappningar mellan två distinkta datamodeller . Datakartläggning används som ett första steg för en mängd olika dataintegreringsuppgifter , inklusive:
- Datatransformation eller dataförmedling mellan en datakälla och en destination
- Identifiering av datarelationer som en del av datalinjeanalys
- fyra sista siffrorna i ett personnummer gömt i ett annat användar-id som en del av ett datamaskerings- eller avidentifikationsprojekt
- Konsolidering av flera databaser till en enda databas och identifiera redundanta kolumner med data för konsolidering eller eliminering
Till exempel kan ett företag som vill överföra och ta emot inköp och fakturor med andra företag använda datamappning för att skapa datamappar från ett företags data till standardiserade ANSI ASC X12-meddelanden för artiklar som inköpsorder och fakturor.
Standarder
X12-standarder är generiska EDI-standarder ( Electronic Data Interchange) utformade för att göra det möjligt för ett företag att utbyta data med vilket annat företag som helst, oavsett bransch. Standarderna underhålls av Accredited Standards Committee X12 (ASC X12), med American National Standards Institute (ANSI) ackrediterat för att sätta standarder för EDI. X12-standarderna kallas ofta ANSI ASC X12 -standarder.
W3C introducerade R2RML som en standard för att kartlägga data i en relationsdatabas till data uttryckt i termer av Resource_Description_Framework ( RDF).
I framtiden kommer verktyg baserade på semantiska webbspråk som Resource Description Framework (RDF), Web Ontology Language (OWL) och standardiserat metadataregister att göra datakartläggning till en mer automatisk process. Denna process kommer att påskyndas om varje applikation utförde metadatapublicering . Helautomatisk datamappning är ett mycket svårt problem (se semantisk översättning ) .
Handkodad, grafisk manual
Datamappningar kan göras på en mängd olika sätt genom att använda procedurkod, skapa XSLT- transformationer eller genom att använda grafiska mappningsverktyg som automatiskt genererar körbara transformationsprogram. Dessa är grafiska verktyg som låter en användare "rita" linjer från fält i en uppsättning data till fält i en annan. Vissa grafiska datakartläggningsverktyg tillåter användare att "autokoppla" en källa och en destination. Denna funktion är beroende av att namnet på käll- och måldataelementet är detsamma. Transformationsprogram skapas automatiskt i SQL, XSLT, Java eller C++ . Dessa typer av grafiska verktyg finns i de flesta ETL- verktyg (extrahera, transformera och ladda) som det primära sättet att ange datakartor för att stödja dataförflyttning. Exempel inkluderar SAP BODS och Informatica PowerCenter.
Datadriven kartläggning
Detta är det senaste tillvägagångssättet inom datamappning och innebär att man samtidigt utvärderar faktiska datavärden i två datakällor med hjälp av heuristik och statistik för att automatiskt upptäcka komplexa mappningar mellan två datamängder. Detta tillvägagångssätt används för att hitta transformationer mellan två datamängder, för att upptäcka delsträngar, sammanlänkningar, aritmetik , fallsatser såväl som andra typer av transformationslogik. Detta tillvägagångssätt upptäcker också dataundantag som inte följer den upptäckta transformationslogiken.
Semantisk kartläggning
Semantisk mappning liknar den automatiska anslutningsfunktionen hos datamappare med undantaget att ett metadataregister kan konsulteras för att slå upp dataelementsynonymer. Till exempel, om källsystemet listar FirstName men destinationslistorna PersonGivenName , kommer mappningarna fortfarande att göras om dessa dataelement är listade som synonymer i metadataregistret. Semantisk mappning kan bara upptäcka exakta matchningar mellan kolumner med data och kommer inte att upptäcka någon transformationslogik eller undantag mellan kolumner.
Datalinje är ett spår av livscykeln för varje databit när den tas in, bearbetas och matas ut av analyssystemet. Detta ger insyn i analyspipelinen och förenklar spårning av fel tillbaka till sina källor. Det möjliggör också uppspelning av specifika delar eller ingångar av dataflödet för stegvis felsökning eller återskapande av förlorad utdata. Faktum är att databassystem har använt sådan information, kallad datahärkomst, för att hantera liknande validerings- och felsökningsutmaningar.
Se även
- Dataintegration
- Databråk
- Identitetsförvandling
- ISO/IEC 11179 - ISO/IEC Metadata registerstandard
- Metadata
- Metadatapublicering
- Schemamatchning
- Semantisk heterogenitet
- Semantisk kartläggare
- Semantisk översättning
- Semantisk webb
- Semantik
- XSLT - XML Transformation Language