Dimensionell faktamodell
Den dimensionella faktamodellen ( DFM ) är en ad hoc och grafisk formalism speciellt framtagen för att stödja den konceptuella modelleringsfasen i ett datalagerprojekt. DFM är extremt intuitivt och kan användas av analytiker och icke-tekniska användare. Ett kortsiktigt arbete är tillräckligt för att förverkliga en tydlig och uttömmande representation av flerdimensionella begrepp (t.ex. attribut, mått och hierarkier). Den kan användas från de första stegen i datalagerets livscykel för att snabbt ta fram en konceptuell modell att dela med kunderna.
Datalager (DW) är databaser som används av beslutsfattare för att analysera status och utveckling av en organisation. DW:er är baserade på stora mängder data integrerade från heterogena källor i flerdimensionella databaser , och de är optimerade för att komma åt data på ett sätt som faller naturligt för mänskliga analytiker (t.ex. OLAP -applikationer).
Data i en DW är organiserad enligt den multidimensionella modellen, som är beroende av begreppen fakta (ett fokus av intresse för beslutsprocessen, såsom försäljning och beställningar) och dimension (en koordinat för att analysera ett faktum, såsom tid , kund och produkt). Varje fakta kvantifieras genom en uppsättning numeriska mått, såsom mängden såld produkt, priset på produkter, etc.
DW-design och utveckling kräver ad hoc-metoder och en lämplig livscykel.
Översikt
DFM är en grafisk konceptuell modell, speciellt framtagen för flerdimensionell design, för att:
- ge effektivt stöd till konceptuell design
- skapa en miljö där användarfrågor kan formuleras intuitivt
- möjliggöra kommunikation mellan designers och slutanvändare med målet att formalisera kravspecifikationer
- bygga en stabil plattform för logisk design
- tillhandahålla tydlig och uttrycksfull designdokumentation.
Den konceptuella representationen som genereras av DFM består av en uppsättning faktascheman. Faktaschemamodeller fakta, mått, dimensioner och hierarkier (Figur 1). Förutom dessa grundläggande element innehåller DFM en stor uppsättning konstruktioner för att uttrycka mångfalden av konceptuella nyanser som kännetecknar faktiska modelleringsscenarier i projekt av liten till stor komplexitet. Ett flerdimensionellt schema modellerat med DFM kan enkelt (dvs. halvautomatiskt) implementeras på både ROLAP- och MOLAP -plattformar.
Grundläggande koncept
Ett faktum är ett begrepp som är relevant för beslutsprocesser. Det modellerar vanligtvis en uppsättning händelser som äger rum inom ett företag. Exempel på fakta inom den kommersiella domänen är försäljning, leveranser, köp och reklamationer.
Ett mått är en numerisk egenskap hos ett faktum som beskriver ett kvantitativt attribut som är relevant för analys. Till exempel, varje försäljning mäts av antalet sålda enheter, enhetspriset och de totala kvittonen.
En dimension är en egenskap, med en ändlig domän, som beskriver en analyskoordinat av faktum. Ett faktum har i allmänhet flera dimensioner som definierar dess minsta representationsgranularitet. Typiska dimensioner för försäljningsfaktumet är produkter, butiker och datum; i så fall är den grundläggande informationen som kan representeras produktförsäljning i en butik på en dag.
Ett faktum representeras av en ruta som visar faktanamnet tillsammans med måttnamnen. Små cirklar representerar dimensionerna, som är kopplade till faktum med räta linjer (se figur 1).
Ett dimensionsattribut är en egenskap, med en ändlig domän, för en dimension. Liksom dimensioner representeras ett dimensionsattribut av en cirkel. Till exempel kan en produkt beskrivas efter dess typ, kategori och varumärke; en kund kan representeras av stad och nation. Relationerna mellan dimensionsattributen uttrycks av hierarkier.
En hierarki är ett riktat träd vars noder är dimensionella attribut och vars bågar modellerar många-till-en-associationer mellan dimensionella attributpar. En hierarki inkluderar en dimension, placerad vid trädets rot, och alla dimensionsattribut som beskriver den. Bågar representeras grafiskt av raka linjer som förbinder dimensionella attribut. Hierarkier definierar hur elementära affärshändelser kan väljas och aggregeras för beslutsprocesser.
Avancerade koncept
Ett beskrivande attribut anger en egenskap hos ett dimensionsattribut, som det är relaterat till genom en x-till-ett-association. Beskrivande attribut kan inte användas för aggregering; de är alltid blad i en hierarki och representeras grafiskt av horisontella linjer, som "telefonnummer" i figur 2.
Ett tvärdimensionellt attribut är ett dimensionellt eller beskrivande attribut vars värde definieras av kombinationen av två eller flera dimensionella attribut, som eventuellt tillhör olika hierarkier. Till exempel, om en produkt mervärdesskatt (moms) beror både på produktkategorin och på det land där produkten säljs, kan du använda ett tvärdimensionellt attribut för att representera det. Figur 2 visar detta exempel genom att sammanfoga bågarna som definierar en produktmoms med en cirkelbåge.
En konvergens äger rum när tvådimensionella attribut inom en hierarki är sammankopplade med två eller flera alternativa vägar av många-till-en-associationer. Konvergenser representeras genom att låta två eller flera bågar nå samma dimensionella attribut. Till exempel, i figur 2 innehåller den geografiska hierarkin för kunddimensionen en konvergens om vi antar att även om det inte finns några inkluderingsrelationer mellan distrikt och städer/stater, så passerar försäljningsdistrikt aldrig nationsgränserna. I det här fallet tillhör varje kund exakt en nation, vilken av de två vägarna som följs.
Valfria bågar används för att modellera scenarier där en association som representeras i ett faktaschema inte är definierad för en delmängd av händelser. Valfria bågar är markerade med ett streck. Till exempel tar attributdiet i figur 2 ett värde (såsom kolesterolfri, glutenfri eller sockerfri) endast för livsmedelsprodukter; för övriga produkter är den odefinierad.
En multipelbåge modellerar en många-till-många-association mellan de tvådimensionella attribut som den förbinder. Grafiskt betecknas det genom att dubbla linjen som representerar bågen. Betrakta faktaschemat som modellerar försäljningen av böcker, representerat i figur 3, vars dimensioner är datum och bok. Det skulle säkert vara intressant att aggregera och välja försäljning utifrån bokförfattare. Det skulle dock inte vara korrekt att modellera författare som ett dimensionellt underordnat attribut för bok eftersom en bok kan ha mer än en författare och författare kan skriva mer än en bok. Därför är förhållandet mellan böcker och författare modellerat som en multipel båge.