Bullriga data

Brusiga data är data som är skadade, förvrängda eller har ett lågt signal-brusförhållande . Felaktiga procedurer (eller felaktigt dokumenterade procedurer) för att subtrahera bruset i data kan leda till en falsk känsla av noggrannhet eller falska slutsatser.

Bullriga data är data med en stor mängd ytterligare meningslös information som kallas brus. Detta inkluderar datakorruption och termen används ofta som en synonym för korrupta data. Det inkluderar också all data som ett användarsystem inte kan förstå och tolka korrekt. Många system kan till exempel inte använda ostrukturerad text . Bullriga data kan negativt påverka resultaten av dataanalyser och förvränga slutsatser om de inte hanteras på rätt sätt. Statistisk analys används ibland för att rensa bort bullret ur bullriga data.

Källor till buller

I det här exemplet på en extremvärde och filtrering är punkt t2 en extremvärde. Den mjuka övergången till och från extremvärdet är från filtrering och är inte heller giltig data, utan mer brus. Att presentera filtrerade resultat (de utjämnade övergångarna) som faktiska mätningar kan leda till falska slutsatser.
Denna typ av filter (ett glidande medelvärde ) flyttar data åt höger. Det glidande medelpriset vid en given tidpunkt är vanligtvis mycket annorlunda än det faktiska priset vid den tidpunkten.

Skillnader i verkliga uppmätta data från de sanna värdena kommer från flera faktorer som påverkar mätningen.

Slumpmässigt brus är ofta en stor komponent av bruset i data. Slumpmässigt brus i en signal mäts som signal-brusförhållandet . Slumpmässigt brus innehåller nästan lika stora mängder av ett brett spektrum av frekvenser och kallas även vitt brus (eftersom ljusets färger kombineras för att göra vitt ). Slumpmässigt brus är ett oundvikligt problem. Det påverkar datainsamlingen och databeredningsprocesserna, där fel ofta förekommer. Brus har två huvudkällor: fel som introduceras av mätverktyg och slumpmässiga fel som introduceras av bearbetning eller av experter när data samlas in.

Felaktig filtrering kan lägga till brus om den filtrerade signalen behandlas som om den vore en direkt uppmätt signal. Som ett exempel kan digitala filter av Convolution -typ som ett glidande medelvärde ha bieffekter som fördröjningar eller trunkering av toppar. Differentierade digitala filter förstärker slumpmässigt brus i originaldata.

Avvikande data är data som verkar inte höra hemma i datamängden. Det kan orsakas av mänskliga fel som att överföra siffror, felmärkning, programmeringsbuggar , etc. Om faktiska extremvärden inte tas bort från datamängden, korrumperar de resultaten i liten eller stor grad beroende på omständigheterna. Om giltig data identifieras som en outlier och tas bort av misstag, förstör det också resultaten.

Bedrägeri: Individer kan medvetet skeva data för att påverka resultaten mot en önskad slutsats. Data som ser bra ut med få extremvärden återspeglar väl individen som samlar in dem, och det kan därför finnas incitament att ta bort mer data som extremvärden eller få data att se smidigare ut än vad det är.