Toppkodad
Inom ekonometri och statistik är en toppkodad dataobservation en för vilken datapunkter vars värden ligger över en övre gräns censureras .
Undersökningsdata toppkodas ofta innan de släpps till allmänheten för att bevara respondenternas anonymitet. Till exempel, om ett enkätsvar rapporterade en respondent med en självidentifierad rikedom på 79 miljarder USD, skulle det inte vara anonymt eftersom folk skulle veta att det finns en god chans att respondenten var Bill Gates . Toppkodning kan också användas för att förhindra att eventuellt felaktiga extremvärden publiceras.
Bottenkodning är analog, t.ex. om mängder under noll rapporteras som noll. Toppkodning sker för data som registreras i grupper, t.ex. om åldersintervall rapporteras i dessa grupper: 0-20, 21-50, 50-99, 100 och uppåt. Här vet vi bara hur många personer som är över 100 år, inte deras fördelning. Producenter av undersökningsdata släpper ibland genomsnittet av de censurerade beloppen för att hjälpa användare att tillskriva opartiska uppskattningar av toppgruppen.
Exempel: Toppkodning av inkomst på 30 000 USD
id | ålder | verklig rikedom | förmögenhetsvariabel i datamängd |
---|---|---|---|
1 | 26 | 24,778 | 24,778 |
2 | 32 | 26 750 | 26 750 |
3 | 45 | 26,780 | 26,780 |
4 | 64 | 35,469 | 30 000+ |
5 | 27 | 43,695 | 30 000+ |
Toppkodning är ett allmänt problem för analys av datauppsättningar för offentlig användning. Toppkodning i den aktuella befolkningsundersökningen gör det svårt att uppskatta mått på inkomstojämlikhet eftersom formen på fördelningen av höga inkomster är blockerad. För att hjälpa till att övervinna detta problem tillhandahåller CPS medelvärdet för toppkodade värden.
Praxis med toppkodning, eller ett tak för det rapporterade maxvärdet på skattedeklarationer för att skydda inkomsttagarens anonymitet, komplicerar analysen av fördelningen av välstånd i USA.
Implikationer för vanlig minsta kvadratuppskattning
- Om den nedre gränsen för den toppkodade gruppen används som ett regressorvärde (30000 i exemplet ovan), är OLS partisk och inkonsekvent eftersom regressorns högsta värden rapporteras med ett systematiskt fel.
- De toppkodade observationerna kan utelämnas från regressionen helt. Förutsatt att det inte finns några systematiska skillnader mellan den utelämnade gruppen och de inkluderade grupperna är OLS konsekvent och opartisk.
- Tobit - proceduren är robust för toppkodning och ger opartiska uppskattningar.
Se även
Vidare läsning
- Jenkins, SP, Burkhauser, RV, Feng, S., & Larrimore, J. (2009). Att mäta ojämlikhet med hjälp av censurerad data: ett tillvägagångssätt med flera imputationer , ISER Working Paper Series 2009-04, Institutet för social och ekonomisk forskning.