Upptäckt av metadata
I metadata är metadataupptäckt (även metadatainsamling ) processen att använda automatiserade verktyg för att upptäcka semantiken för ett dataelement i datamängder. Denna process slutar vanligtvis med en uppsättning mappningar mellan datakällelementen och ett centraliserat metadataregister . Upptäckt av metadata kallas även för metadataskanning.
Datakälla format för metadata upptäckt
Datauppsättningar kan vara i en mängd olika former inklusive:
- Relationsdatabaser
- NoSQL -databaser
- Kalkylblad
- XML- filer
- webbservice
- Programvarukällkod som Fortran, Jovial, COBOL, Assembler, RPG , PL/1, EasyTrieve, Java, C# eller C++ klasser och tusentals andra programvaruspråk
- Ostrukturerade textdokument som Microsoft Word eller PDF -filer
En taxonomi av algoritmer för matchning av metadata
Det finns olika kategorier av automatisk metadataupptäckt:
Lexikal matchning
- Exakt matchning - där länkar till dataelement görs baserat på det exakta namnet på en kolumn i en databas, namnet på ett XML-element eller en etikett på en skärm. Till exempel, om en databaskolumn har namnet "PersonBirthDate" och ett dataelement i ett metadataregister också har namnet "PersonBirthDate", kan automatiserade verktyg dra slutsatsen att kolumnen i en databas har samma semantik (betydelse) som dataelementet i metadataregistret.
- Synonymmatchning - där upptäcktsverktyget inte bara ges ett enda namn utan en uppsättning synonymer.
- Mönstermatchning - i det här fallet ges verktygen en uppsättning lexikaliska mönster som de kan matcha. Verktygen kan till exempel söka efter "*kön*" eller "*sex*"
Semantisk matchning
Semantisk matchning försöker använda semantik för att associera måldata med registrerade dataelement .
- Semantisk likhet - I denna algoritm som förlitar sig på en databas av ordets begreppsmässiga närhet används. Till exempel WordNet- systemet rangordna hur nära ord begreppsmässigt ligger varandra. Till exempel kan termerna "Person", "Individuell" och "Människa" vara mycket liknande begrepp.
Statistisk matchning
Statistisk matchning använder statistik om datakällans data i sig för att härleda likheter med registrerade dataelement.
- Distinkt värdeanalys - Genom att analysera alla distinkta värden i en kolumn kan likheten med ett registrerat dataelement skapas. Till exempel, om en kolumn bara har två distinkta värden för 'man' och 'kvinna' kan detta mappas till 'PersonGenderCode'.
- Datadistributionsanalys - Genom att analysera fördelningen av värden inom en enda kolumn och jämföra denna fördelning med kända dataelement kan en semantisk koppling härledas.
Försäljare
Följande leverantörer (listade i alfabetisk ordning) tillhandahåller programvara och lösningar för metadataupptäckt och metadatakartläggning
- Atlan (se [1] )
- BigHand/Esquire Innovations (se [2] )
- IBM
- Talend
- InfoLibrarian Corporation (se [3] )
- MindHARBOR Metadata Database-applikation (se [4] )
- Octopai - en plattformsoberoende metadataupptäckt och hanteringsautomatisering (se [5] )
- Revelytix (se [6] )
- Silver Creek Systems (se [7] )
- Stratio (se Datatillförlitlighet är basen för framgångsrika företag )
- Sypherlink: Harvester (se [8] )
- Unicorn Systems (se [9] )
Forskning
- INDUS-projekt vid Iowa State University (se [10] )
- Mercury - Ett distribuerat system för hantering av metadata och dataupptäckt utvecklat vid Oak Ridge National Laboratory DAAC ( se [11] )
Se även
Citat
Källor
- Massive Data Analysis Systems av San Diego Supercomputer Center juni 1997
- IBM Whitepaper om Enterprise Metadata Discovery
- Vitbok om metadatahantering - av Esquire Innovations