Upptäckt av metadata

I metadata är metadataupptäckt (även metadatainsamling ) processen att använda automatiserade verktyg för att upptäcka semantiken för ett dataelement i datamängder. Denna process slutar vanligtvis med en uppsättning mappningar mellan datakällelementen och ett centraliserat metadataregister . Upptäckt av metadata kallas även för metadataskanning.

Datakälla format för metadata upptäckt

Datauppsättningar kan vara i en mängd olika former inklusive:

Relationsdatabaser
NoSQL -databaser
Kalkylblad
XML- filer
webbservice
Programvarukällkod som Fortran, Jovial, COBOL, Assembler, RPG , PL/1, EasyTrieve, Java, C# eller C++ klasser och tusentals andra programvaruspråk
Ostrukturerade textdokument som Microsoft Word eller PDF -filer

En taxonomi av algoritmer för matchning av metadata

Det finns olika kategorier av automatisk metadataupptäckt:

Lexikal matchning

Exakt matchning - där länkar till dataelement görs baserat på det exakta namnet på en kolumn i en databas, namnet på ett XML-element eller en etikett på en skärm. Till exempel, om en databaskolumn har namnet "PersonBirthDate" och ett dataelement i ett metadataregister också har namnet "PersonBirthDate", kan automatiserade verktyg dra slutsatsen att kolumnen i en databas har samma semantik (betydelse) som dataelementet i metadataregistret.
Synonymmatchning - där upptäcktsverktyget inte bara ges ett enda namn utan en uppsättning synonymer.
Mönstermatchning - i det här fallet ges verktygen en uppsättning lexikaliska mönster som de kan matcha. Verktygen kan till exempel söka efter "*kön*" eller "*sex*"

Semantisk matchning

Semantisk matchning försöker använda semantik för att associera måldata med registrerade dataelement .

Semantisk likhet - I denna algoritm som förlitar sig på en databas av ordets begreppsmässiga närhet används. Till exempel WordNet- systemet rangordna hur nära ord begreppsmässigt ligger varandra. Till exempel kan termerna "Person", "Individuell" och "Människa" vara mycket liknande begrepp.

Statistisk matchning

Statistisk matchning använder statistik om datakällans data i sig för att härleda likheter med registrerade dataelement.

Distinkt värdeanalys - Genom att analysera alla distinkta värden i en kolumn kan likheten med ett registrerat dataelement skapas. Till exempel, om en kolumn bara har två distinkta värden för 'man' och 'kvinna' kan detta mappas till 'PersonGenderCode'.
Datadistributionsanalys - Genom att analysera fördelningen av värden inom en enda kolumn och jämföra denna fördelning med kända dataelement kan en semantisk koppling härledas.

Försäljare

Följande leverantörer (listade i alfabetisk ordning) tillhandahåller programvara och lösningar för metadataupptäckt och metadatakartläggning

Atlan (se [1] )
BigHand/Esquire Innovations (se [2] )
IBM
Talend
InfoLibrarian Corporation (se [3] )
MindHARBOR Metadata Database-applikation (se [4] )
Octopai - en plattformsoberoende metadataupptäckt och hanteringsautomatisering (se [5] )
Revelytix (se [6] )
Silver Creek Systems (se [7] )
Stratio (se Datatillförlitlighet är basen för framgångsrika företag )
Sypherlink: Harvester (se [8] )
Unicorn Systems (se [9] )

Forskning

INDUS-projekt vid Iowa State University (se [10] )
Mercury - Ett distribuerat system för hantering av metadata och dataupptäckt utvecklat vid Oak Ridge National Laboratory DAAC ( se [11] )

Se även

Citat

Källor

Massive Data Analysis Systems av San Diego Supercomputer Center juni 1997
IBM Whitepaper om Enterprise Metadata Discovery
Vitbok om metadatahantering - av Esquire Innovations