Dataförberedelse
Databeredning är handlingen att manipulera (eller förbearbeta) rådata (som kan komma från olika datakällor) till en form som lätt och exakt kan analyseras, t.ex. för affärsändamål.
Dataförberedelse är det första steget i dataanalysprojekt och kan inkludera många diskreta uppgifter som att ladda data eller dataintag, datafusion , datarensning , dataökning och dataleverans.
De frågor som ska behandlas delas in i två huvudkategorier:
- systematiska fel som involverar ett stort antal dataposter, förmodligen för att de har kommit från olika källor;
- enskilda fel som påverkar ett litet antal dataposter, troligen på grund av fel i den ursprungliga datainmatningen.
Dataspecifikation
Det första steget är att ange en fullständig och detaljerad specifikation av formatet för varje datafält och vad posterna betyder. Detta bör ta noggrann hänsyn till:
- viktigast av allt, samråd med användarna av data
- alla tillgängliga specifikationer för systemet som kommer att använda data för att utföra analysen
- en fullständig förståelse av tillgänglig information och eventuella luckor i källdata.
Se även datadefinitionsspecifikation .
Exempel
Anta att det finns ett alfabetiskt fält med två tecken som anger geografisk plats. Det är möjligt att en kod "EE" i en datakälla betyder "Europa" och i en annan datakälla betyder samma kod "Estland". Man skulle behöva utforma en entydig uppsättning koder och ändra koden i en uppsättning poster i enlighet med detta.
Dessutom kan det "geografiska området" hänvisa till vilken som helst av t.ex. leveransadress, faktureringsadress, adress från vilken varor levereras, faktureringsvaluta eller tillämpliga nationella bestämmelser. Alla dessa frågor måste tas upp i specifikationen.
Det kan finnas några poster med "X" eller "555" i det fältet. Det är uppenbart att detta är ogiltig data eftersom den inte överensstämmer med specifikationen. Om det bara finns ett litet antal sådana poster, skulle man antingen korrigera dem manuellt eller om precision inte är viktigt, helt enkelt ta bort dessa poster från filen. En annan möjlighet skulle vara att skapa en "okänd" kategori.
Andra exempel på ogiltiga data som kräver korrigering
- Telefonnummer är i rätt format och har rätt värden för det område som anges i fältet för geografisk plats. Landskoden kan finnas i vissa poster och inte i andra: den bör antingen tas bort eller infogas (baserat på den geografiska platsen) beroende på dataspecifikationen. På samma sätt kan formaten för datum och måttenheter (vikter, längder) vara inkonsekventa.
- I vissa fall bör saknade data tillhandahållas från externa källor (t.ex. att hitta postnummer / postnummer för en adress via en extern datakälla)
- Data bör vara konsekventa mellan olika men relaterade dataposter (t.ex. samma individ kan ha olika födelsedatum i olika poster eller datauppsättningar).
Där det är möjligt och ekonomiskt, bör data verifieras mot en auktoritativ källa (t.ex. hänvisas företagsinformation till en D&B-databas för att säkerställa riktigheten).
Med tanke på mångfalden av datakällor (t.ex. databaser , affärsapplikationer ) som tillhandahåller data och format som data kan komma in i, kan databeredningen vara ganska involverad och komplex. Det finns många verktyg och tekniker som används för att förbereda data. Kostnaden för att rengöra data bör alltid balanseras mot värdet av den förbättrade noggrannheten.
Självbetjäningsdataberedning
Traditionella verktyg och tekniker, såsom skriptspråk eller extrahera, transformera, ladda (ETL) och datakvalitetsverktyg är inte avsedda för företagsanvändare. De kräver vanligtvis programmerings- eller IT-kunskaper som de flesta företagsanvändare inte har. [ citat behövs ]
Flera företag, såsom Paxata, Trifacta, Alteryx, Talend och Ataccama tillhandahåller visuella gränssnitt som visar data och låter användaren direkt utforska, strukturera, rensa, utöka och uppdatera exempeldata från användaren.
När förberedelsearbetet är klart kan de underliggande stegen köras på andra datauppsättningar för att utföra samma operationer. Denna återanvändning ger en betydande produktivitetsökning jämfört med mer traditionella manuella och handkodningsmetoder för databeredning.
Se även
- Dataredigering , korrigering av fel i en datakorpus
- Dataförbehandling , ett steg för att rensa data i datautvinning för analysändamål
- Data mining , hittar mönster och insikter inom datamängder
- Dataöverföring