Data binning
Databinning , även kallad datadiskret binning eller databucketing , är en dataförbehandlingsteknik som används för att minska effekterna av mindre observationsfel. De ursprungliga datavärdena som faller inom ett givet litet intervall, en bin , ersätts av ett värde som är representativt för det intervallet, ofta ett centralt värde ( medelvärde eller median ). Det är relaterat till kvantisering : databinning arbetar på abskissaxeln medan kvantisering arbetar på ordinataaxeln . Binning är en generalisering av avrundning .
Statistisk databinning är ett sätt att gruppera antal mer eller mindre kontinuerliga värden i ett mindre antal "bins". Till exempel, om du har data om en grupp människor, kanske du vill ordna deras åldrar i ett mindre antal åldersintervall (till exempel gruppera vart femte år tillsammans). Det kan också användas i multivariat statistik , och binning i flera dimensioner samtidigt.
Inom digital bildbehandling har "binning" en helt annan betydelse. Pixelbinning är processen att kombinera block av angränsande pixlar genom en bild, genom att summera eller medelvärdesbestämma deras värden, under eller efter avläsning. Det minskar mängden data; även den relativa ljudnivån i resultatet är lägre.
Exempel användning
Histogram är ett exempel på databinning som används för att observera underliggande frekvensfördelningar . De förekommer vanligtvis i endimensionell rymd och i lika intervall för att underlätta visualiseringen.
Databinning kan användas när små instrumentella förskjutningar i den spektrala dimensionen från masspektrometri (MS) eller kärnmagnetisk resonans (NMR)-experiment kommer att felaktigt tolkas som att representera olika komponenter, när en samling dataprofiler utsätts för mönsterigenkänningsanalys . Ett enkelt sätt att hantera detta problem är att använda binning-tekniker där spektrumet reduceras i upplösning i tillräcklig grad för att säkerställa att en given topp förblir i sin bining trots små spektrala skiftningar mellan analyser. Till exempel, i NMR kan den kemiska skiftaxeln vara diskretiserad och grovt lagrad, och i MS kan spektralnoggrannheten avrundas till heltalsvärden för atommassenhet . Dessutom har flera digitalkamerasystem en automatisk pixelbinning-funktion för att förbättra bildkontrasten.
Binning används också i maskininlärning för att påskynda beslutsträdsförstärkningsmetoden för övervakad klassificering och regression i algoritmer som Microsofts LightGBM och scikit-learns Histogram -baserade Gradient Boosting Classification Tree .
Se även
- Binning (disambiguation)
- Diskretisering av kontinuerliga funktioner
- Grupperade data
- Histogram
- Mätnivå
- Kvantisering (signalbehandling)
- Avrundning