Listvis radering
I statistiken är listvis radering en metod för att hantera saknad data . I denna metod exkluderas en hel post från analysen om något enskilt värde saknas.
Exempel
Tänk till exempel på följande frågeformulär, som besvarats av 10 försökspersoner:
Ämne | Ålder | Kön | Inkomst |
---|---|---|---|
1 | 29 | M | $40 000 |
2 | 45 | M | $36 000 |
3 | 81 | M | --saknas-- |
4 | 22 | --saknas-- | $16 000 |
5 | 41 | M | $98 000 |
6 | 33 | F | $60 000 |
7 | 22 | F | $24 000 |
8 | --saknas-- | F | $81 000 |
9 | 33 | F | $55 000 |
10 | 45 | F | $80 000 |
En forskare hoppas kunna modellera inkomst ( beroende variabel ) baserat på ålder och kön (oberoende variabler). Genom att använda listvis radering skulle forskaren ta bort försökspersonerna 3, 4 och 8 från provet innan ytterligare analys utfördes.
Problem med listvis radering
Listvis radering påverkar den statistiska styrkan hos de utförda testerna. Statistisk styrka beror delvis på hög urvalsstorlek. Eftersom listvis radering utesluter data med saknade värden, minskar det provet som analyseras statistiskt.
Listmässig radering är också problematiskt när orsaken till att data saknas kanske inte är slumpmässig (dvs. frågor i frågeformulär som syftar till att extrahera känslig information. På grund av metoden kommer mycket av försökspersonernas data att uteslutas från analysen, vilket lämnar en partiskhet i datafynden . . Ett frågeformulär kan till exempel innehålla frågor om respondenternas droganvändningshistorik, nuvarande inkomster eller sexuella övertygelser. Många av försökspersonerna i urvalet kanske inte svarar på grund av frågornas påträngande karaktär, men kan svara på alla andra frågor. Radering av listor kommer att utesluta dessa respondenter från analys. Detta kan skapa en partiskhet eftersom deltagare som avslöjar denna information kan ha andra egenskaper än deltagare som inte gör det. Multipel imputering är en alternativ teknik för att hantera saknade data som försöker eliminera denna fördom.
Jämfört med andra metoder
Även om listvis radering har sina problem, är det att föredra framför många andra metoder för att hantera saknade data. I vissa fall kan det till och med vara den minst problematiska metoden. Följande tabell ger några jämförelser av listvisa raderingar med andra metoder:
Metod | Jämförelse |
---|---|
Parvis radering | Tvetydig definition av urvalsstorlek orsakar bias i uppskattade standardfel och teststatistik. |
Dummy variabel justering | Producerar partiska uppskattningar av koefficienter. |