Statistisk slutsatsvaliditet

Statistisk slutsatsvaliditet är i vilken grad slutsatser om förhållandet mellan variabler baserade på data är korrekta eller "rimliga". Detta började som att det enbart handlade om huruvida den statistiska slutsatsen om förhållandet mellan variablerna var korrekt, men nu finns det en rörelse mot att gå till "rimliga" slutsatser som använder: kvantitativa, statistiska och kvalitativa data. I grunden kan två typer av fel förekomma: typ I (att hitta en skillnad eller korrelation när ingen finns) och typ II (att hitta ingen skillnad eller korrelation när en finns). Statistisk slutsatsvaliditet handlar om de kvaliteter i studien som gör dessa typer av fel mer sannolika. Validitet av statistiska slutsatser innebär att säkerställa användningen av adekvata provtagningsförfaranden, lämpliga statistiska tester och tillförlitliga mätförfaranden.

Vanliga hot

De vanligaste hoten mot statistisk slutsatsvaliditet är:

Låg statistisk kraft

Power är sannolikheten för att korrekt förkasta nollhypotesen när den är falsk (invers av typ II-felfrekvensen). Experiment med låg effekt har en högre sannolikhet att felaktigt acceptera nollhypotesen – det vill säga begå ett typ II-fel och dra slutsatsen att det inte finns någon effekt när det faktiskt finns (dvs det finns en verklig samvariation mellan orsak och verkan). Låg effekt uppstår när urvalsstorleken för studien är för liten med tanke på andra faktorer (små effektstorlekar , stor gruppvariabilitet, opålitliga mått etc.).

Brott mot antaganden i teststatistiken

De flesta statistiska tester (särskilt inferentiell statistik ) innefattar antaganden om de data som gör analysen lämplig för att testa en hypotes . Att bryta mot antagandena i statistiska tester kan leda till felaktiga slutsatser om orsak-verkan-sambandet. Ett tests robusthet indikerar hur känsligt det är för överträdelser . Brott mot antaganden kan göra tester mer eller mindre benägna att göra fel av typ I eller II .

Muddring och felfrekvensproblemet

Varje hypotestest innebär en bestämd risk för ett typ I-fel (alfahastigheten). Om en forskare söker eller " muddrar " genom sina data och testar många olika hypoteser för att hitta en signifikant effekt, blåser de upp sin typ I-felfrekvens. Ju mer forskaren upprepade gånger testar data, desto större är chansen att observera ett typ I-fel och göra en felaktig slutsats om förekomsten av ett samband.

Otillförlitlighet i åtgärder

Om de beroende och/eller oberoende variablerna inte mäts på ett tillförlitligt sätt (dvs. med stora mängder mätfel ) kan felaktiga slutsatser dras.

Begränsning av räckvidd

Begränsning av räckvidd, såsom golv- och takeffekter eller urvalseffekter , minskar kraften i experimentet och ökar risken för ett typ II-fel. Detta beror på att korrelationer dämpas (försvagas) av minskad variabilitet (se till exempel ekvationen för Pearsons produkt-moment korrelationskoefficient som använder poängvarians i sin uppskattning).

Heterogenitet hos de enheter som studeras

Större heterogenitet hos individer som deltar i studien kan också påverka tolkningar av resultat genom att öka variansen av resultat eller dölja sanna samband (se även urvalsfel) . Detta skymmer möjliga interaktioner mellan enheternas egenskaper och orsak-verkan-sambandet.

Hot mot inre giltighet

Alla effekter som kan påverka den interna validiteten i en forskningsstudie kan påverka resultaten och påverka giltigheten av de statistiska slutsatserna. Dessa hot mot den interna validiteten inkluderar opålitligheten i behandlingsimplementeringen (brist på standardisering ) eller att inte kontrollera för främmande variabler .

Se även