Typ I och typ II fel

I statistisk hypotestestning är ett typ I-fel ett felaktigt förkastande av en faktiskt sann nollhypotes (även känd som ett "falskt positivt" fynd eller slutsats; exempel: "en oskyldig person döms"), medan ett typ II-fel är underlåtenhet att förkasta en nollhypotes som faktiskt är falsk (även känd som en "falsk negativ" upptäckt eller slutsats; exempel: "en skyldig person döms inte"). Mycket av statistisk teori kretsar kring minimering av ett eller båda av dessa fel, även om fullständig eliminering av båda är en statistisk omöjlighet om resultatet inte bestäms av en känd, observerbar orsaksprocess. Genom att välja ett lågt tröskelvärde (cut-off) och modifiera alfa (α) nivån kan kvaliteten på hypotestestet höjas. Kunskapen om typ I-fel och typ II-fel används i stor utsträckning inom medicinsk vetenskap , biometri och datavetenskap . [ förtydligande behövs ]

Intuitivt kan typ I-fel ses som uppdragsfel , dvs forskaren drar olyckligtvis slutsatsen att något är faktum. Tänk till exempel på en studie där forskare jämför ett läkemedel med ett placebo. Om patienterna som får läkemedlet blir bättre än de patienter som får placebo av en slump kan det se ut som att läkemedlet är effektivt, men i själva verket är slutsatsen felaktig. Omvänt är typ II-fel utelämnandefel . I exemplet ovan, om patienterna som fick läkemedlet inte blev bättre i högre takt än de som fick placebo, men detta var en slumpmässig slump, skulle det vara ett typ II-fel. Konsekvensen av ett typ II-fel beror på storleken och riktningen av den missade bestämningen och omständigheterna. Ett dyrt botemedel för en av en miljon patienter kan vara oviktigt även om det verkligen är ett botemedel.

Definition

Statistisk bakgrund

0 I statistisk testteori är föreställningen om ett statistiskt fel en integrerad del av hypotestestning . Testet går ut på att välja om två konkurrerande satser som kallas nollhypotes , betecknade med H och alternativ hypotes , betecknade med H 1 . Detta liknar begreppsmässigt domen i en rättegång. Nollhypotesen motsvarar den tilltalades ställning: precis som han antas vara oskyldig tills motsatsen bevisats, så antas nollhypotesen vara sann tills uppgifterna ger övertygande bevis mot den. Den alternativa hypotesen motsvarar ställningen mot den tilltalade. Specifikt innebär nollhypotesen också frånvaron av en skillnad eller frånvaron av en association. Nollhypotesen kan alltså aldrig vara att det finns en skillnad eller ett samband.

00 Om resultatet av testet överensstämmer med verkligheten har ett korrekt beslut fattats. Men om resultatet av testet inte överensstämmer med verkligheten har ett fel inträffat. Det finns två situationer där beslutet är felaktigt. Nollhypotesen kan vara sann, medan vi förkastar H . Å andra sidan kan den alternativa hypotesen H 1 vara sann, medan vi inte förkastar H . Två typer av fel särskiljs: typ I-fel och typ II-fel.

Typ I fel

Den första typen av fel är ett felaktigt förkastande av en nollhypotes som ett resultat av ett testförfarande. Denna typ av fel kallas ett typ I-fel (falskt positivt) och kallas ibland ett fel av det första slaget. När det gäller rättssalsexemplet motsvarar ett fel typ I att fälla en oskyldig tilltalad.

Typ II fel

Den andra typen av fel är det felaktiga misslyckandet att förkasta nollhypotesen som ett resultat av ett testförfarande. Denna typ av fel kallas ett typ II-fel (falskt negativ) och kallas också för ett fel av det andra slaget. När det gäller rättssalsexemplet motsvarar ett fel typ II att frikänna en brottsling.

Crossover felfrekvens

Crossover error rate (CER) är den punkt där typ I-fel och typ II-fel är lika. Ett system med ett lägre CER-värde ger mer noggrannhet än ett system med ett högre CER-värde.

Falskt positivt och falskt negativt

I termer av falska positiva och falska negativa, motsvarar ett positivt resultat att förkasta nollhypotesen, medan ett negativt resultat motsvarar att misslyckas med att förkasta nollhypotesen; "falskt" betyder att slutsatsen är felaktig. Således är ett typ I-fel ekvivalent med ett falskt positivt, och ett typ II-fel är ekvivalent med ett falskt negativt.

Tabell över feltyper

Tabellformade relationer mellan sanning/falskhet i nollhypotesen och testresultat:

Tabell över feltyper
0 Nollhypotes ( H ) är
 
Sann Falsk


0 Beslut om nollhypotes ( H )
Avvisa inte


Rätt slutledning (sant negativ)

(sannolikhet = 1− α )



Typ II-fel (falskt negativt) (sannolikhet = β )
Avvisa

Typ I-fel (falskt positivt) (sannolikhet = α )


Rätt slutledning (sant positiv)

(sannolikhet = 1− β )
 

Felfrekvens

Resultaten erhållna från negativa prov (vänster kurva) överlappar resultaten från positiva prover (höger kurva). Genom att flytta gränsvärdet för resultatet (vertikal stapel) kan frekvensen av falska positiva (FP) minskas, till priset av att antalet falska negativa (FN) höjs, eller vice versa (TP = True Positives, TPR = True Positives Rate, FPR = False Positive Rate, TN = True Negatives).

Ett perfekt test skulle ha noll falskt positiva och noll falskt negativa. Statistiska metoder är dock probabilistiska och man kan inte med säkerhet veta om statistiska slutsatser är korrekta. När det råder osäkerhet finns möjligheten att göra fel. Med tanke på denna typ av statistikvetenskap har alla statistiska hypotestest en sannolikhet att göra typ I- och typ II-fel.

  • Typ I-felfrekvensen är sannolikheten att förkasta nollhypotesen givet att den är sann. Testet är utformat för att hålla typ I-felfrekvensen under en fördefinierad gräns som kallas signifikansnivån, vanligtvis betecknad med den grekiska bokstaven α (alfa) och kallas även alfanivån. Vanligtvis sätts signifikansnivån till 0,05 (5%), vilket innebär att det är acceptabelt att ha en 5% sannolikhet att felaktigt förkasta den sanna nollhypotesen.
  • Frekvensen för typ II-felet betecknas med den grekiska bokstaven β (beta) och relateras till styrkan av ett test , som är lika med 1−β.

Dessa två typer av felfrekvenser växlas mot varandra: för varje given urvalsuppsättning leder ansträngningen att minska en typ av fel i allmänhet i att den andra typen av fel ökar.

Kvaliteten på hypotestestet

Samma idé kan uttryckas i termer av graden av korrekta resultat och därför användas för att minimera felfrekvensen och förbättra kvaliteten på hypotestestet. För att minska sannolikheten att begå ett typ I-fel är det ganska enkelt och effektivt att göra alfavärdet mer stringent. För att minska sannolikheten för att begå ett typ II-fel, som är nära förknippat med analysens kraft, kan antingen en ökning av testets urvalsstorlek eller en avlastning av alfanivån öka analysens kraft. En teststatistik är robust om typ I-felfrekvensen kontrolleras.

Att variera olika tröskelvärden (cut-off) skulle också kunna användas för att göra testet antingen mer specifikt eller känsligare, vilket i sin tur höjer testkvaliteten. Föreställ dig till exempel ett medicinskt test, där en experimentator kan mäta koncentrationen av ett visst protein i blodprovet. Försöksledaren kunde justera tröskeln (svart vertikal linje i figuren) och människor skulle diagnostiseras med sjukdomar om något antal detekteras över denna vissa tröskel. Enligt bilden skulle en förändring av tröskeln resultera i förändringar i falska positiva och falska negativa, motsvarande rörelse på kurvan.

Exempel

0000 Eftersom det i ett verkligt experiment är omöjligt att undvika alla typ I- och typ II-fel, är det viktigt att överväga hur stor risk man är villig att ta för att felaktigt förkasta H eller acceptera H . Lösningen på denna fråga skulle vara att rapportera p-värdet eller signifikansnivån α för statistiken. Till exempel, om p-värdet för ett teststatistiskt resultat uppskattas till 0,0596, så finns det en sannolikhet på 5,96 % att vi felaktigt förkastar H . Eller, om vi säger att statistiken utförs på nivå α, som 0,05, då tillåter vi att felaktigt förkasta H vid 5%. En signifikansnivå α på 0,05 är relativt vanligt, men det finns ingen generell regel som passar alla scenarier.

Hastighetsmätning av fordon

Hastighetsgränsen för en motorväg i USA är 120 kilometer i timmen. En enhet är inställd för att mäta hastigheten på passerande fordon. Antag att enheten kommer att utföra tre mätningar av hastigheten för ett passerande fordon och registrerar som ett slumpmässigt urval X 1 , X 2 , X 3 . Trafikpolisen kommer eller kommer inte att bötfälla förarna beroende på medelhastigheten . Det vill säga teststatistiken

0 Dessutom antar vi att måtten X 1 , X 2 , X 3 är modellerade som normalfördelning N(μ,4). Sedan bör T följa N(μ,4/3) och parametern μ representerar den verkliga hastigheten för ett passerande fordon. bör nollhypotesen H och alternativhypotesen H 1 vara

0 H : μ=120 mot H 1 : μ>120.

Om vi ​​utför den statistiska nivån vid α=0,05, så bör ett kritiskt värde c beräknas för att lösa

Enligt enhetsbyteregeln för normalfördelningen. Med hänvisning till Z-tabell , kan vi få

Här, den kritiska regionen. Det vill säga, om den registrerade hastigheten för ett fordon är större än kritiskt värde 121,9, kommer föraren att dömas till böter. Det finns dock fortfarande 5% av förarna som får falska böter eftersom den registrerade medelhastigheten är högre än 121,9 men den verkliga hastigheten passerar inte 120, vilket vi säger, ett typ I-fel.

Typ II-felet motsvarar fallet att den verkliga hastigheten för ett fordon är över 120 kilometer i timmen men föraren får inga böter. Till exempel, om den verkliga hastigheten för ett fordon μ=125, kan sannolikheten att föraren inte får böter beräknas som

vilket innebär att om den verkliga hastigheten för ett fordon är 125 har föraren sannolikheten 0,36 % att undvika böterna när statistiken utförs på nivå 125 eftersom den registrerade medelhastigheten är lägre än 121,9. Om den verkliga hastigheten är närmare 121,9 än 125, så kommer sannolikheten att undvika böterna också vara högre.

Avvägningarna mellan typ I-fel och typ II-fel bör också beaktas. Det vill säga, i det här fallet, om trafikpolisen inte vill bötfälla oskyldiga förare, kan nivån α sättas till ett mindre värde, som 0,01. Men om så är fallet skulle fler förare vars verkliga hastighet är över 120 kilometer i timmen, som 125, vara mer benägna att undvika böterna.

Etymologi

År 1928 diskuterade Jerzy Neyman (1894–1981) och Egon Pearson (1895–1980), båda framstående statistiker, problemen i samband med att "bestämma huruvida ett visst urval kan bedömas som troligt att ha dragits slumpmässigt från en viss population eller inte. ": och, som Florence Nightingale David påpekade, "det är nödvändigt att komma ihåg att adjektivet 'slumpmässigt' [i termen 'slumpmässigt urval'] bör gälla för metoden för att dra provet och inte på själva urvalet".

De identifierade "två felkällor", nämligen:

(a) felet att förkasta en hypotes som inte borde ha förkastats, och
(b) felet att misslyckas med att förkasta en hypotes som borde ha förkastats.

År 1930 utvecklade de dessa två felkällor och påpekade att:

...vid testning av hypoteser måste två överväganden hållas i sikte, vi måste kunna minska chansen att förkasta en sann hypotes till ett så lågt värde som önskat; Testet måste vara så utformat att det kommer att förkasta den testade hypotesen när den sannolikt är falsk.

1933 observerade de att dessa "problem sällan presenteras i en sådan form att vi med säkerhet kan skilja mellan den sanna och den falska hypotesen". De noterade också att det var lätt att göra ett fel när de beslutade om man skulle misslyckas med att förkasta eller förkasta en viss hypotes bland en "uppsättning alternativa hypoteser", H 1 , H 2 ...:

...[och] dessa fel kommer att vara av två slag:

0 (I) vi förkastar H [dvs hypotesen som ska testas] när den är sann,
0 (II) vi misslyckas med att förkasta H när någon alternativ hypotes H A eller H 1 är sann. (Det finns olika beteckningar för alternativet).

0 I alla tidningar som skrivits tillsammans av Neyman och Pearson betyder uttrycket H alltid "hypotesen som ska testas".

I samma tidning kallar de dessa två felkällor, fel av typ I respektive fel av typ II.

Relaterade termer

Nollhypotesen

Det är standardpraxis för statistiker att utföra tester för att avgöra om en "spekulativ hypotes " om de observerade fenomenen i världen (eller dess invånare) kan stödjas eller inte. Resultaten av sådana tester avgör om en viss uppsättning resultat överensstämmer rimligt (eller inte överensstämmer) med den spekulerade hypotesen.

På grundval av att det alltid antas, enligt statistisk konvention, att den spekulerade hypotesen är felaktig, och den så kallade "nollhypotesen" att de observerade fenomenen helt enkelt inträffar av en slump (och att den spekulerade agenten som en konsekvens inte har någon effekt) – testet kommer att avgöra om denna hypotes är rätt eller fel. Det är därför hypotesen som testas ofta kallas nollhypotesen (mest troligt, myntad av Fisher (1935, s. 19)), eftersom det är denna hypotes som antingen ska omintetgöras eller inte omintetgöras av testet. När nollhypotesen upphävs är det möjligt att dra slutsatsen att data stöder den "alternativa hypotesen" (som är den ursprungliga spekulerade).

0 Statistikernas konsekventa tillämpning av Neyman och Pearsons konvention att representera "hypotesen som ska testas" (eller "hypotesen som ska ogiltigförklaras") med uttrycket H har lett till omständigheter där många förstår termen "nollhypotesen" som betydelsen " nollhypotesen" – ett påstående om att resultaten i fråga har uppstått genom slumpen. Detta är inte nödvändigtvis fallet – den viktigaste begränsningen, enligt Fisher (1966), är att "nollhypotesen måste vara exakt, som är fri från vaghet och tvetydighet, eftersom den måste utgöra grunden för" distributionsproblemet ". varav signifikanstestet är lösningen." Som en konsekvens av detta är nollhypotesen inom experimentell vetenskap i allmänhet ett påstående om att en viss behandling inte har någon effekt; inom observationsvetenskap är det att det inte finns någon skillnad mellan värdet på en viss uppmätt variabel och värdet på en experimentell förutsägelse. [ citat behövs ]

Statistisk signifikans

Om sannolikheten för att erhålla ett så extremt resultat som det erhållna, om man antar att nollhypotesen var sann, är lägre än en fördefinierad cut-off-sannolikhet (till exempel 5 %), så sägs resultatet vara statistiskt signifikant och nollhypotesen förkastas.

Den brittiske statistikern Sir Ronald Aylmer Fisher (1890–1962) betonade att "nollhypotesen":

... är aldrig bevisat eller etablerat, men motbevisas möjligen under experimentets gång. Varje experiment kan sägas existera endast för att ge fakta en chans att motbevisa nollhypotesen.

Fisher, 1935, s.19

Applikationsdomäner

Medicin

I utövandet av medicin är skillnaderna mellan tillämpningarna av screening och testning avsevärda.

Medicinsk screening

Screening involverar relativt billiga tester som ges till stora populationer, varav ingen visar någon klinisk indikation på sjukdom (t.ex. cellprov) .

Testning involverar mycket dyrare, ofta invasiva, procedurer som endast ges till dem som visar någon klinisk indikation på sjukdom, och som oftast används för att bekräfta en misstänkt diagnos.

Till exempel kräver de flesta stater i USA att nyfödda ska screenas för fenylketonuri och hypotyreos , bland andra medfödda störningar .

Hypotes: "De nyfödda har fenylketonuri och hypotyreos"

0 Nollhypotes (H ): "De nyfödda har inte fenylketonuri och hypotyreos",

Typ I-fel (falskt positivt): Det sanna faktum är att de nyfödda inte har fenylketonuri och hypotyreos men vi anser att de har störningarna enligt uppgifterna.

Typ II-fel (falskt negativt): Det sanna faktum är att de nyfödda har fenylketonuri och hypotyreos men vi anser att de inte har störningarna enligt uppgifterna.

Även om de visar en hög andel falska positiva, anses screeningtesterna vara värdefulla eftersom de i hög grad ökar sannolikheten för att upptäcka dessa störningar i ett långt tidigare skede.

De enkla blodproverna som används för att screena möjliga blodgivare för HIV och hepatit har en betydande andel falska positiva resultat; dock använder läkare mycket dyrare och mycket mer exakta tester för att avgöra om en person faktiskt är infekterad med något av dessa virus.

mammografin för bröstcancerscreening . Den amerikanska andelen falskt positiva mammografi är upp till 15 %, den högsta i världen. En konsekvens av den höga falska positiva frekvensen i USA är att under en 10-årsperiod får hälften av de amerikanska kvinnorna som screenas ett falskt positivt mammografi. Falskt positiva mammografi är kostsamma, med över 100 miljoner dollar som spenderas årligen i USA på uppföljande tester och behandling. De orsakar också kvinnor onödig ångest. Som ett resultat av den höga andelen falska positiva i USA har så många som 90–95 % av kvinnorna som får ett positivt mammografi inte tillståndet. Den lägsta andelen i världen finns i Nederländerna, 1%. De lägsta frekvenserna är generellt i norra Europa där mammografifilmer läses två gånger och en hög tröskel för ytterligare testning sätts (den höga tröskeln minskar testets kraft).

Det ideala populationsscreeningtestet skulle vara billigt, lätt att administrera och producera noll falsknegativ, om möjligt. Sådana tester ger vanligtvis fler falskt positiva resultat, som sedan kan redas ut genom mer sofistikerade (och dyra) tester.

Medicinsk testning

Falska negativa och falska positiva är viktiga frågor i medicinska tester .

Hypotes: "Patienterna har den specifika sjukdomen".

0 Nollhypotes (H ): "Patienterna har inte den specifika sjukdomen".

Typ I-fel (falskt positivt): "Det sanna faktum är att patienterna inte har en specifik sjukdom men läkarna bedömer att patienterna var sjuka enligt testrapporterna".

Falska positiva resultat kan också ge allvarliga och kontraintuitiva problem när det tillstånd som man söker efter är sällsynt, som vid screening. Om ett test har en falsk positiv frekvens på en av tio tusen, men bara en av en miljon prover (eller personer) är ett sant positivt, kommer de flesta av de positiva som upptäcks av det testet att vara falska. Sannolikheten att ett observerat positivt resultat är ett falskt positivt kan beräknas med Bayes sats .

Typ II-fel (falskt negativt): "Det sanna faktum är att sjukdomen faktiskt är närvarande men testrapporterna ger ett falskt lugnande meddelande till patienter och läkare att sjukdomen är frånvarande".

Falska negativa resultat ger allvarliga och kontraintuitiva problem, särskilt när tillståndet som man söker efter är vanligt. Om ett test med en falsk negativ frekvens på endast 10 % används för att testa en population med en sann förekomstfrekvens på 70 %, kommer många av de negativa som upptäckts av testet att vara falska.

Detta leder ibland till olämplig eller otillräcklig behandling av både patienten och deras sjukdom. Ett vanligt exempel är att förlita sig på hjärtstresstester för att upptäcka koronar ateroskleros, även om hjärtstresstester är kända för att endast upptäcka begränsningar av kranskärlsblodflödet på grund av avancerad stenos .

Biometri

Biometrisk matchning, som för fingeravtrycksigenkänning , ansiktsigenkänning eller irisigenkänning , är känslig för typ I- och typ II-fel.

Hypotes: "Indata identifierar inte någon i den sökta listan över personer"

Nollhypotes: "Indata identifierar någon i den sökta listan över personer"

Typ I-fel (falsk avvisningsfrekvens): "Det sanna faktum är att personen är någon i den sökta listan men systemet drar slutsatsen att personen inte är enligt uppgifterna".

Typ II fel (false match rate): "Det sanna faktum är att personen inte är någon i den sökta listan men systemet drar slutsatsen att personen är någon som vi söker enligt uppgifterna".

Sannolikheten för typ I-fel kallas "falsk reject rate" (FRR) eller falsk non-match rate (FNMR), medan sannolikheten för typ II-fel kallas "false accept rate" (FAR) eller false match rate ( FMR).

Om systemet är utformat för att sällan matcha misstänkta kan sannolikheten för typ II-fel kallas " falsk larmfrekvens" . Å andra sidan, om systemet används för validering (och acceptans är normen) så är FAR ett mått på systemsäkerhet, medan FRR mäter användarens olägenhetsnivå.

Säkerhetskontroll

Falska positiva resultat hittas rutinmässigt varje dag i säkerhetskontroller på flygplatser , som i slutändan är visuella inspektionssystem . De installerade säkerhetslarmen är avsedda att förhindra att vapen förs in i flygplan; Ändå är de ofta inställda på så hög känslighet att de larmar många gånger om dagen för mindre föremål, som nycklar, bältesspännen, lösväxel, mobiltelefoner och stickor i skor.

Här är nollhypotesen att föremålet inte är ett vapen, medan den alternativa hypotesen är att föremålet är ett vapen.

Ett typ I-fel (falskt positivt): "Det sanna faktum är att föremålet inte är ett vapen men systemet larmar fortfarande".

Typ II-fel (falskt negativt) "Det sanna faktum är att föremålet är ett vapen men systemet förblir tyst vid denna tidpunkt".

Förhållandet mellan falska positiva (att identifiera en oskyldig resenär som en terrorist) och sanna positiva (upptäcka en blivande terrorist) är därför mycket hög; och eftersom nästan varje larm är ett falskt positivt, är det positiva prediktiva värdet av dessa screeningtest mycket lågt.

Den relativa kostnaden för falska resultat avgör sannolikheten för att testskapare tillåter att dessa händelser inträffar. Eftersom kostnaden för ett falskt negativt i det här scenariot är extremt högt (att inte upptäcka en bomb som förs in på ett plan kan resultera i hundratals dödsfall) medan kostnaden för ett falskt positivt är relativt låg (en ganska enkel ytterligare inspektion) är det mest lämpliga testet är ett med låg statistisk specificitet men hög statistisk känslighet (ett som tillåter en hög andel falska positiva i utbyte mot minimala falska negativa).

Datorer

Föreställningarna om falska positiva och falska negativa har en stor betydelse inom datorer och datorapplikationer, inklusive datorsäkerhet , skräppostfiltrering , skadlig programvara , optisk teckenigenkänning och många andra.

Till exempel, när det gäller skräppostfiltrering är hypotesen här att meddelandet är skräppost.

Alltså nollhypotes: "Meddelandet är inte spam".

Typ I-fel (falskt positivt): "Skräppostfiltrering eller skräppostblockeringstekniker klassificerar felaktigt ett legitimt e-postmeddelande som skräppost och stör som ett resultat av dess leverans".

Medan de flesta anti-spam-taktik kan blockera eller filtrera en hög andel oönskade e-postmeddelanden, är det en mycket mer krävande uppgift att göra det utan att skapa signifikanta falskt positiva resultat.

Typ II-fel (falskt negativt): "Spam-e-post upptäcks inte som spam, men klassificeras som icke-spam". Ett lågt antal falska negativ är en indikator på effektiviteten av skräppostfiltrering.

Se även

Bibliografi

  • Betz, MA & Gabriel, KR , "Typ IV-fel och analys av enkla effekter", Journal of Educational Statistics , Vol.3, No.2, (sommaren 1978), s. 121–144.
  • David, FN, "A Power Function for Tests of Randomness in a Sequence of Alternatives", Biometrika , Vol.34, Nos.3/4, (december 1947), s. 335–339.
  • Fisher, RA, The Design of Experiments , Oliver & Boyd (Edinburgh), 1935.
  • Gambrill, W., "Falsk positiv på nyföddas sjukdomstester Oroar föräldrar", Health Day , (5 juni 2006). [1] Arkiverad 17 maj 2018 på Wayback Machine
  • Kaiser, HF, "Directional Statistical Decisions", Psychological Review , Vol.67, No.3, (maj 1960), s. 160–167.
  • Kimball, AW, "Errors of the Third Kind in Statistical Consulting", Journal of the American Statistical Association , Vol.52, No.278, (juni 1957), s. 133–142.
  • Lubin, A., "The Interpretation of Significant Interaction", Educational and Psychological Measurement , Vol.21, No.4, (Vinter 1961), s. 807–817.
  • Marascuilo, LA & Levin, JR, "Appropriate Post Hoc Comparions for Interaction and Nested Hypotheses in Analysis of Variance Designs: The Elimination of Type-IV Errors", American Educational Research Journal , Vol.7., No.3, (maj 1970) ), s. 397-421.
  • Mitroff, II & Featheringham, TR, "On Systemic Problem Solving and the Error of the Third Kind", Behavioral Science , Vol.19, No.6, (november 1974), s. 383–393.
  • Mosteller, F., "A k -Sample Slippage Test for an Extreme Population", The Annals of Mathematical Statistics , Vol.19, No.1, (mars 1948), s. 58–65.
  • Moulton, RT, "Network Security", Datamation , Vol.29, No.7, (juli 1983), sid. 121–127.
  • Raiffa, H., Decision Analysis: Introductory Lectures on Choices Under Uncertainty , Addison–Wesley, (Reading), 1968.

externa länkar

  • Bias and Confounding – presentation av Nigel Paneth, Graduate School of Public Health, University of Pittsburgh