Upptäckt av metadata

I metadata är metadataupptäckt (även metadatainsamling ) processen att använda automatiserade verktyg för att upptäcka semantiken för ett dataelement i datamängder. Denna process slutar vanligtvis med en uppsättning mappningar mellan datakällelementen och ett centraliserat metadataregister . Upptäckt av metadata kallas även för metadataskanning.

Datakälla format för metadata upptäckt

Datauppsättningar kan vara i en mängd olika former inklusive:

  1. Relationsdatabaser
  2. NoSQL -databaser
  3. Kalkylblad
  4. XML- filer
  5. webbservice
  6. Programvarukällkod som Fortran, Jovial, COBOL, Assembler, RPG , PL/1, EasyTrieve, Java, C# eller C++ klasser och tusentals andra programvaruspråk
  7. Ostrukturerade textdokument som Microsoft Word eller PDF -filer

En taxonomi av algoritmer för matchning av metadata

Det finns olika kategorier av automatisk metadataupptäckt:

Lexikal matchning

  1. Exakt matchning - där länkar till dataelement görs baserat på det exakta namnet på en kolumn i en databas, namnet på ett XML-element eller en etikett på en skärm. Till exempel, om en databaskolumn har namnet "PersonBirthDate" och ett dataelement i ett metadataregister också har namnet "PersonBirthDate", kan automatiserade verktyg dra slutsatsen att kolumnen i en databas har samma semantik (betydelse) som dataelementet i metadataregistret.
  2. Synonymmatchning - där upptäcktsverktyget inte bara ges ett enda namn utan en uppsättning synonymer.
  3. Mönstermatchning - i det här fallet ges verktygen en uppsättning lexikaliska mönster som de kan matcha. Verktygen kan till exempel söka efter "*kön*" eller "*sex*"

Semantisk matchning

Semantisk matchning försöker använda semantik för att associera måldata med registrerade dataelement .

  1. Semantisk likhet - I denna algoritm som förlitar sig på en databas av ordets begreppsmässiga närhet används. Till exempel WordNet- systemet rangordna hur nära ord begreppsmässigt ligger varandra. Till exempel kan termerna "Person", "Individuell" och "Människa" vara mycket liknande begrepp.

Statistisk matchning

Statistisk matchning använder statistik om datakällans data i sig för att härleda likheter med registrerade dataelement.

  1. Distinkt värdeanalys - Genom att analysera alla distinkta värden i en kolumn kan likheten med ett registrerat dataelement skapas. Till exempel, om en kolumn bara har två distinkta värden för 'man' och 'kvinna' kan detta mappas till 'PersonGenderCode'.
  2. Datadistributionsanalys - Genom att analysera fördelningen av värden inom en enda kolumn och jämföra denna fördelning med kända dataelement kan en semantisk koppling härledas.

Försäljare

Följande leverantörer (listade i alfabetisk ordning) tillhandahåller programvara och lösningar för metadataupptäckt och metadatakartläggning

Forskning

Se även

Citat

Källor