Datamuddring
Datamuddring (även känd som datasnokning eller p -hacking ) är missbruk av dataanalys för att hitta mönster i data som kan presenteras som statistiskt signifikanta , vilket dramatiskt ökar och underskattar risken för falska positiva resultat . Detta görs genom att utföra många statistiska tester på data och endast rapportera de som kommer tillbaka med signifikanta resultat.
Processen för datamuddring innebär att testa flera hypoteser med en enda datamängd genom att uttömmande sökningar - kanske efter kombinationer av variabler som kan visa en korrelation , och kanske för grupper av fall eller observationer som visar skillnader i deras medelvärde eller i deras uppdelning med någon annan variabel.
Konventionella test av statistisk signifikans är baserade på sannolikheten att ett visst resultat skulle uppstå om enbart slumpen var på väg, och accepterar med nödvändighet en viss risk för felaktiga slutsatser av en viss typ (felaktiga förkastanden av nollhypotesen). Denna risknivå kallas signifikans . När ett stort antal tester utförs ger vissa falska resultat av denna typ; därför kan 5 % av de slumpmässigt valda hypoteserna (felaktigt) rapporteras vara statistiskt signifikanta vid 5 % signifikansnivån, 1 % kan (felaktigt) rapporteras vara statistiskt signifikanta vid 1 % signifikansnivån, och så vidare, av en slump enbart . När tillräckligt många hypoteser testas är det praktiskt taget säkert att vissa kommer att rapporteras vara statistiskt signifikanta (även om detta är missvisande), eftersom nästan varje datauppsättning med någon grad av slumpmässighet sannolikt innehåller (till exempel) några falska korrelationer . Om de inte är försiktiga kan forskare som använder datautvinningstekniker lätt vilseledas av dessa resultat.
Datamuddring är ett exempel på att bortse från problemet med flera jämförelser . En form är när undergrupper jämförs utan att läsaren uppmärksammas på det totala antalet undersökta undergruppsjämförelser.
Dra slutsatser från data
Den konventionella testmetoden för frekventistiska statistiska hypoteser är att formulera en forskningshypotes, såsom "människor i högre samhällsklasser lever längre", sedan samla in relevant data, följt av att utföra ett statistiskt signifikanstest för att se hur troligt att sådana resultat skulle hittas om en slump var ensamma på jobbet. (Det sista steget kallas att testa mot nollhypotesen .)
En nyckelpunkt i korrekt statistisk analys är att testa en hypotes med bevis (data) som inte användes för att konstruera hypotesen. Detta är avgörande eftersom varje datamängd innehåller vissa mönster som helt och hållet beror på slumpen. Om hypotesen inte testas på en annan datamängd från samma statistiska population är det omöjligt att bedöma sannolikheten att enbart slumpen skulle producera sådana mönster. Se testhypoteser som föreslås av data .
Här är ett enkelt exempel. Att kasta ett mynt fem gånger, med ett resultat av 2 huvuden och 3 svansar, kan få en att anta att myntet gynnar svansar med 3/5 till 2/5. Om denna hypotes sedan testas på den befintliga datamängden, bekräftas den, men bekräftelsen är meningslös. Det korrekta förfarandet hade varit att i förväg skapa en hypotes om vad sannolikheten för svansen är, och sedan kasta myntet flera gånger för att se om hypotesen förkastas eller inte. Om tre svansar och två huvuden observeras kan en annan hypotes, att svanssannolikheten är 3/5, bildas, men den kunde bara testas genom en ny uppsättning myntkast. Det är viktigt att inse att den statistiska signifikansen under det felaktiga förfarandet är helt falsk – signifikanstest skyddar inte mot datamuddring.
Hypotes som föreslås av icke-representativa data
Antag att en studie av ett slumpmässigt urval av människor inkluderar exakt två personer med födelsedag den 7 augusti: Mary och John. Någon som ägnar sig åt datasnokning kan försöka hitta ytterligare likheter mellan Mary och John. Genom att gå igenom hundratals eller tusentals potentiella likheter mellan de två, som var och en har en låg sannolikhet att vara sann, kan man nästan säkert hitta en ovanlig likhet. Kanske är John och Mary de enda två personerna i studien som bytte minderåriga tre gånger på college. En hypotes, partisk av datasnokning, kan då vara "Människor födda den 7 augusti har en mycket högre chans att byta minderåriga mer än två gånger på college."
Själva data som tagits ur sitt sammanhang kan ses som ett starkt stöd för den korrelationen, eftersom ingen med en annan födelsedag hade bytt minderåriga tre gånger på college. Men om (som är troligt) detta är en falsk hypotes, kommer detta resultat med största sannolikhet inte att vara reproducerbart ; varje försök att kontrollera om andra med en födelsedag den 7 augusti har en liknande frekvens av att byta minderåriga kommer med största sannolikhet att få motsägelsefulla resultat nästan omedelbart.
Partiskhet
Bias är ett systematiskt fel i analysen. Läkarna riktade till exempel HIV-patienter med hög kardiovaskulär risk till en viss HIV-behandling, abacavir , och patienter med lägre risk till andra läkemedel, vilket förhindrade en enkel bedömning av abacavir jämfört med andra behandlingar. En analys som inte korrigerade för denna partiskhet straffade abacavir orättvist, eftersom dess patienter var mer riskfyllda så att fler av dem fick hjärtinfarkt. Detta problem kan vara mycket allvarligt, till exempel i observationsstudien .
Saknade faktorer, omätta konfounders och förlust till uppföljning kan också leda till partiskhet. Genom att välja papper med ett signifikant p -värde väljs negativa studier ut mot - vilket är publikationsbias . Detta är också känt som " fillådans bias ", eftersom mindre signifikanta p -värderesultat lämnas i fillådan och aldrig publiceras.
Multipel modellering
En annan aspekt av konditioneringen av statistiska tester genom kunskap om data kan ses när man använder systemet eller maskinanalys och linjär regression för att observera datafrekvensen. [ förtydliga ] Ett avgörande steg i processen är att bestämma vilka kovariater som ska inkluderas i en relation som förklarar en eller flera andra variabler. Det finns både statistiska (se Stegvis regression ) och materiella överväganden som gör att författarna gynnar vissa av sina modeller framför andra, och det finns en liberal användning av statistiska tester. Men att kassera en eller flera variabler från en förklarande relation på grundval av data innebär att man inte på ett giltigt sätt kan tillämpa standardstatistiska procedurer på de bibehållna variablerna i relationen som om ingenting hade hänt. I fallets natur har de bibehållna variablerna fått klara något slags preliminärt test (möjligen ett oprecis intuitivt sådant) att de kasserade variablerna misslyckades. 1966 jämförde Selvin och Stuart variabler som finns kvar i modellen med fisken som inte faller genom nätet – i den meningen att deras effekter kommer att vara större än de som faller genom nätet. Detta förändrar inte bara prestandan för alla efterföljande tester på den bibehållna förklaringsmodellen, utan det kan också introducera bias och ändra medelkvadratfel vid uppskattning.
Exempel inom meteorologi och epidemiologi
Inom meteorologi formuleras hypoteser ofta med hjälp av väderdata fram till nutid och testas mot framtida väderdata, vilket säkerställer att, även omedvetet, framtida data inte kan påverka formuleringen av hypotesen. Naturligtvis kräver en sådan disciplin att man väntar på att nya data ska komma in, för att visa den formulerade teorins prediktiva kraft kontra nollhypotesen . Denna process säkerställer att ingen kan anklaga forskaren för att handskräddarsy den prediktiva modellen till den tillgängliga data, eftersom det kommande vädret ännu inte är tillgängligt.
Som ett annat exempel, anta att observatörer noterar att en viss stad verkar ha ett cancerkluster , men saknar en fast hypotes om varför det är så. De har dock tillgång till en stor mängd demografisk data om staden och det omgivande området, som innehåller mätningar för området hundratals eller tusentals olika variabler, mestadels okorrelerade. Även om alla dessa variabler är oberoende av cancerfrekvensen, är det mycket troligt att åtminstone en variabel korrelerar signifikant med cancerfrekvensen i hela området. Även om detta kan antyda en hypotes, krävs ytterligare testning med samma variabler men med data från en annan plats för att bekräfta. Observera att ett p -värde på 0,01 antyder att 1 % av gångerna ett resultat åtminstone den extrema skulle erhållas av en slump; om hundratals eller tusentals hypoteser (med ömsesidigt relativt okorrelerade oberoende variabler) testas, kommer man sannolikt att få ett p -värde mindre än 0,01 för många nollhypoteser.
Exempel inom sociologi
Ett annat sätt att platta till en p-kurva är att kontrollera för kön. En analys av Simonsohn et. al. av en studie av Bruns och Ioannidis (2016) visar detta, som när Bruns och Ioannidis lade ner könskontrollen, sänkte detta också det rapporterade t-värdet från t=9,29 till t=0,88, vilket visar en icke-kausal effekt där en kausal effekt. spelades in tidigare (3). Detta är ett viktigt fynd eftersom t-värden är omvänt proportionella mot p-värden, vilket betyder att högre t-värden (t > 2,8) indikerar lägre p-värden. Genom att kontrollera för kön kan man artificiellt blåsa upp t-värdet och därmed artificiellt tömma p-värdet också.
Framträdande i media
Ett exempel är bluffstudien med chokladviktsförlust utförd av journalisten John Bohannon , som offentligt förklarade i en Gizmodo-artikel att denna studie medvetet utfördes bedrägligt som ett socialt experiment. Denna studie var utbredd i många medier runt 2015, med många människor som trodde påståendet att äta en chokladkaka varje dag skulle få dem att gå ner i vikt, mot deras bättre förstånd. Denna studie publicerades i Institute of Diet and Health. Enligt Bohannon var det avgörande att sänka p-värdet till under 0,05, att ta hänsyn till 18 olika variabler vid testning.
botemedel
Att leta efter mönster i data är legitimt. Att tillämpa ett statistiskt signifikanstest , eller hypotestest, på samma data som ett mönster kommer ur är fel. Ett sätt att konstruera hypoteser samtidigt som man undviker datamuddring är att utföra randomiserade tester utanför urvalet . Forskaren samlar in en datamängd och delar den sedan slumpmässigt upp i två delmängder, A och B. Endast en delmängd – säg delmängd A – undersöks för att skapa hypoteser. När en hypotes väl har formulerats måste den testas på delmängd B, som inte användes för att konstruera hypotesen. Endast där B också stöder en sådan hypotes är det rimligt att tro att hypotesen kan vara giltig. (Detta är en enkel typ av korsvalidering och kallas ofta för träningstest eller delad halv-validering.)
Ett annat botemedel för datamuddring är att registrera antalet av alla signifikanstester som genomförts under studien och helt enkelt dividera ens signifikanskriterium ("alfa") med detta antal; detta är Bonferroni-korrigeringen . Detta är dock ett mycket konservativt mått. Ett familjemässigt alfa på 0,05, dividerat på detta sätt med 1 000 för att stå för 1 000 signifikanstester, ger en mycket stringent alfa per hypotes på 0,00005. Metoder som är särskilt användbara vid variansanalys och för att konstruera samtidiga konfidensband för regressioner som involverar basfunktioner är Scheffé-metoden och, om forskaren endast har parvisa jämförelser i åtanke, Tukey-metoden . Användningen av Benjamini och Hochbergs falska upptäcktsfrekvens är ett mer sofistikerat tillvägagångssätt som har blivit en populär metod för kontroll av flera hypoteser.
När inget av tillvägagångssätten är praktiskt kan man göra en tydlig skillnad mellan dataanalyser som är bekräftande och analyser som är explorativa . Statistisk slutledning är endast lämplig för den förra.
I slutändan är den statistiska signifikansen för ett test och den statistiska tillförlitligheten för ett fynd gemensamma egenskaper hos data och den metod som används för att undersöka data. Alltså, om någon säger att en viss händelse har en sannolikhet på 20 % ± 2 % 19 gånger av 20, betyder det att om sannolikheten för händelsen uppskattas med samma metod som används för att erhålla 20 % skattningen, blir resultatet mellan 18% och 22% med sannolikhet 0,95. Inget påstående om statistisk signifikans kan göras genom att endast titta, utan vederbörlig hänsyn till den metod som används för att bedöma uppgifterna.
Akademiska tidskrifter övergår alltmer till det registrerade rapportformatet , som syftar till att motverka mycket allvarliga frågor som datamuddring och HARKing , som har gjort teoritestande forskning mycket opålitlig. Nature Human Behavior har till exempel antagit det registrerade rapportformatet, eftersom det "skiftar tyngdpunkten från forskningsresultat till de frågor som vägleder forskningen och de metoder som används för att besvara dem". European Journal of Personality definierar detta format enligt följande: "I en registrerad rapport skapar författarna ett studieförslag som inkluderar teoretisk och empirisk bakgrund, forskningsfrågor/hypoteser och pilotdata (om tillgängligt). Efter inlämning kommer detta förslag sedan att granskas före datainsamling, och om det godkänns kommer dokumentet som är ett resultat av denna sakkunniga granskade procedur att publiceras, oavsett studiens resultat."
Metoder och resultat kan också göras allmänt tillgängliga, som i den öppna vetenskapliga metoden, vilket gör det ännu svårare för datamuddring att äga rum.
Se även
- Aliasing – Signalbehandlingseffekt
- Basräntefel – Fel i tänkandet som innebär att information om basräntan undervärderas
- Bibelkod – Påstådd uppsättning hemliga meddelanden kodade i den hebreiska texten i Toran
- Bonferroni-ojämlikheter – ojämlikhet som gäller sannolikhetsutrymmen
- Plockning av körsbär – felaktighet av ofullständiga bevis
- HARKing – Förkortning för "Hypoteserande efter att resultaten är kända"
- Lincoln–Kennedy sammanträffar urban legend – Urban legend
- Se någon annanstans effekt
- Metavetenskap – Vetenskaplig studie av vetenskap
- Missbruk av statistik – Användning av statistiska argument för att hävda osanningar
- Övermontering – Fel i datormodellen för maskininlärning
- Pareidolia – Perception av meningsfulla mönster eller bilder i slumpmässiga eller vaga stimuli
- Post hoc analys – Statistiska analyser som inte specificerades innan data sågs
- Prediktiv analys – Statistiska tekniker som analyserar fakta för att göra förutsägelser om okända händelser
- Texas sharpshooter fallacy – Misstag att överbetona likheter och ignorera skillnader i data
Anteckningar
Vidare läsning
- Ioannidis, John PA (30 augusti 2005). "Varför de flesta publicerade forskningsresultaten är falska" . PLOS Medicin . San Francisco: Public Library of Science. 2 (8): e124. doi : 10.1371/journal.pmed.0020124 . ISSN 1549-1277 . PMC 1182327 . PMID 16060722 .
- Chef, Megan L.; Holman, Luke; Lanfear, Rob; Kahn, Andrew T.; Jennions, Michael D. (13 mars 2015). "Omfattningen och konsekvenserna av P-hacking i vetenskapen" . PLOS Biologi . 13 (3): e1002106. doi : 10.1371/journal.pbio.1002106 . PMC 4359000 . PMID 25768323 .
- Insel, Thomas (14 november 2014). "P-Hacking" . NIMH direktörens blogg .
- Smith, Gary (2016). Standardavvikelser: felaktiga antaganden, torterade data och andra sätt att ljuga med statistik . Gerald Duckworth & Co. ISBN 9780715649749 .
externa länkar
- En bibliografi om datasnokningsbias
- Spurious Correlations , ett galleri med exempel på osannolika korrelationer
- på YouTube
- Video som förklarar p-hacking av " Neuroskeptic ", en bloggare på Discover Magazine
- Step Away From Stepwise , en artikel i Journal of Big Data som kritiserar stegvis regression.