Datablandning

Datablandning är en process där stordata från flera källor slås samman till ett enda datalager eller datamängd . Det handlar inte bara om sammanslagning av olika filformat eller olika datakällor utan också olika typer av data. Datablandning gör det möjligt för affärsanalytiker att klara av den expansion av data som de behöver för att fatta viktiga affärsbeslut baserat på affärsintelligens av god kvalitet .

Datablandning har beskrivits som annorlunda än dataintegration på grund av dataanalytikers krav att slå samman källor mycket snabbt, för snabbt för någon praktisk intervention från datavetare .

Som representerar den ökade efterfrågan på analytiker att kombinera datakällor, har flera mjukvaruföretag sett stor tillväxt och samlat in miljontals dollar, med några tidiga aktörer på marknaden som nu är offentliga företag. Exempel inkluderar AWS , Alteryx , Microsoft Power Query och Incorta, som gör det möjligt att kombinera data från många olika datakällor, till exempel textfiler, databaser, XML, JSON och många andra former av strukturerad och semistrukturerad data.

Datablandning liknar ETL på många sätt. Både ETL och datablandning tar data från olika källor och kombinerar dem. ETL används dock för att slå samman och strukturera data till en måldatabas, ofta ett datalager . Datablandningen skiljer sig något eftersom det handlar om att sammanfoga data för ett specifikt användningsfall vid en specifik tidpunkt. Med viss programvara skrivs inte data in i en databas, vilket skiljer sig mycket från ETL. Till exempel, med Google Data Studio och Tableau sker datablandningen på rapportlagret; det är inte skrivet någonstans, bara visas.

Datablandning i Tableau

I Tableau-programvaran är datablandning en teknik för att kombinera data från flera datakällor i datavisualiseringen . Datakällorna lagras separat och visas endast tillsammans i en instrumentpanel , på rapporteringsskiktet. Detta är ett av nyckelbegreppen som skiljer en Tableau-datablandning från andra definitioner av datablandning.

Den andra nyckelskillnaden är granulariteten hos datakopplingen. I allmänhet, när data blandas till en enskild datamängd, skulle detta använda en databaskoppling , som vanligtvis skulle anslutas på den mest detaljerade nivån, med ett ID-fält där det är möjligt. En datablandning i Tableau bör ske på den minst granulära nivån.

Datablandning i Google Data Studio

I Google Data Studio kombineras datakällor genom att sammanfoga poster från en datakälla med poster för upp till fyra andra datakällor. I likhet med Tableau sker datablandningen bara på rapporteringsskiktet. Den blandade datan lagras aldrig som en separat kombinerad datakälla.

Utmaningar med datablandning

Den vanligaste frågan om anpassad metadata är: "Hur kan denna datauppsättning blandas med (förenas med eller förenas med) mina andra datauppsättningar?" En studie från Forrester Consulting från 2015 visade att 52 procent av företagen blandar 50 eller fler datakällor och 12 procent blandar över 1 000 källor.

Se även

  1. ^ Alteryx Analytics ger kraften av förutsägande och stora data till marknaden
  2. ^ Datablandning är processen att kombinera data från flera källor till en fungerande datamängd
  3. ^ Den definitiva vägleder till datablandning
  4. ^ "Datablandning" . Trifacta.com . 24 augusti 2017.
  5. ^ Vad är datablandning och vilka verktyg gör det enklare?
  6. ^ "Incorta samlar in 30 miljoner dollar i serie C för ETL-fri databehandlingslösning" . TechCrunch . Hämtad 2021-02-27 .
  7. ^ "Alteryx tillkännager prissättning av börsintroduktionen" . Alteryx . Hämtad 2021-02-27 .
  8. ^ Corporation, Microsoft. "Microsoft Power Query" . powerquery.microsoft.com . Hämtad 2021-02-27 .
  9. ^ "Direct Data Analytics Software | Incorta" . www.incorta.com . Hämtad 2021-02-27 .
  10. ^ "Datakällor" . docs.incorta.com . Hämtad 2021-02-27 .
  11. ^ davidiseminger. "Forma och kombinera data från flera källor med hjälp av Power Query" . docs.microsoft.com . Hämtad 2021-02-27 .
  12. ^ "Datakällor som stöds - Amazon QuickSight" . docs.aws.amazon.com . Hämtad 2021-02-27 .
  13. ^ "Datakällor | Alteryx Hjälp" . help.alteryx.com . Hämtad 2021-02-27 .
  14. ^ "Hur ETL fungerar" . Databricks (på tyska) . Hämtad 2021-02-27 .
  15. ^ "Vad är datablandning och vilka verktyg gör det enklare?" . Programvarurådgivning . 2016-08-25 . Hämtad 2021-02-27 .
  16. ^ "Översikt över Google Data Studio" . datastudio.google.com . Hämtad 2021-02-27 .
  17. ^ "Blanda dina data" . help.tableau.com . Hämtad 2021-02-27 .
  18. ^ "SQL-anslutningar förklaras" . SQL-anslutningar förklaras . Hämtad 2021-02-27 .
  19. ^ TAR Solutions (2021-01-20). "Datablandning i tablå" . TAR-lösningar . Hämtad 2021-02-27 . {{ citera webben }} : CS1 underhåll: url-status ( länk )
  20. ^ "Om datablandning - Data Studio Hjälp" . support.google.com . Hämtad 2021-02-27 .
  21. ^ Heer, Jeffrey; Hellerstein, Joseph; Kandel, Sean; Rattenbury, Tye (juli 2017). Principer för databråk . O'Reilly Media.
  22. ^ "Data Mashups för Analytics" . Pentaho .