Utvärdering av binära klassificerare
Källor: Fawcett (2006), Piryonesi och El-Diraby (2020), Powers (2011), Ting (2011), CAWCR, D. Chicco & G. Jurman (2020, 2021, 2023) , Tharwat (2018). Balayla (2020) |
Utvärderingen av binära klassificerare jämför två metoder för att tilldela ett binärt attribut, varav den ena vanligtvis är en standardmetod och den andra undersöks. Det finns många mätvärden som kan användas för att mäta prestandan hos en klassificerare eller prediktor; olika fält har olika preferenser för specifika mätvärden på grund av olika mål. Till exempel, inom medicin känslighet och specificitet , medan precision och återkallelse föredras inom datavetenskap . En viktig skillnad är mellan mått som är oberoende av prevalensen (hur ofta varje kategori förekommer i befolkningen), och mått som beror på prevalensen – båda typerna är användbara, men de har väldigt olika egenskaper.
Beredskapstabell
Givet en datamängd ger en klassificering (utdata från en klassificerare på den uppsättningen) två siffror: antalet positiva och antalet negativa, vilket summerar till den totala storleken på uppsättningen. För att utvärdera en klassificerare jämför man dess utdata med en annan referensklassificering – helst en perfekt klassificering, men i praktiken utdata från ett annat guldstandardtest – och korstabulerar data till en 2×2 beredskapstabell och jämför de två klassificeringarna. Man utvärderar sedan klassificeraren i förhållande till guldstandarden genom att beräkna sammanfattande statistik för dessa 4 siffror. Generellt kommer denna statistik att vara skalinvariant (skalning av alla siffror med samma faktor ändrar inte produktionen), för att göra dem oberoende av populationsstorlek, vilket uppnås genom att använda kvoter av homogena funktioner , helt enkelt homogena linjära eller homogena kvadratiska funktioner.
Säg att vi testar några personer för förekomsten av en sjukdom. Några av dessa människor har sjukdomen, och vårt test säger korrekt att de är positiva. De kallas sanna positiva (TP). Vissa har sjukdomen, men testet hävdar felaktigt att de inte har det. De kallas falska negativ (FN). Vissa har inte sjukdomen, och testet säger att de inte har det – sanna negativa (TN). Slutligen kan det finnas friska personer som har ett positivt testresultat – falskt positiva (FP). Dessa kan arrangeras i en 2×2 beredskapstabell ( konfusionsmatris ), konventionellt med testresultatet på den vertikala axeln och det faktiska tillståndet på den horisontella axeln.
Dessa siffror kan sedan summeras, vilket ger både en totalsumma och marginalsummor . Om man summerar hela tabellen, summerar antalet sanna positiva, falska negativa, sanna negativa och falska positiva till 100 % av uppsättningen. Att summera kolumnerna (lägga till vertikalt) summerar antalet sanna positiva och falska positiva till 100 % av testpositiva, och likaså för negativa. Genom att summera raderna (läggs till horisontellt), summerar antalet sanna positiva och falska negativa till 100 % av villkorspositiva (omvänt för negativa). Den grundläggande marginalkvotsstatistiken erhålls genom att dividera 2×2=4-värdena i tabellen med marginalsummorna (antingen rader eller kolumner), vilket ger 2 extra 2×2-tabeller, för totalt 8 förhållanden. Dessa förhållanden kommer i 4 komplementära par, varje par summerar till 1, och så var och en av dessa härledda 2×2-tabeller kan sammanfattas som ett par med 2 tal, tillsammans med deras komplement. Ytterligare statistik kan erhållas genom att ta förhållanden mellan dessa förhållanden, förhållanden mellan förhållanden eller mer komplicerade funktioner.
Beredskapstabellen och de vanligaste härledda kvoterna sammanfattas nedan; se uppföljaren för detaljer.
Förutspått tillstånd | Källor: | ||||
Total population = P + N |
Positiv (PP) | Negativt (PN) |
Informedness , bookmaker informedness (BM) = TPR + TNR − 1 |
Prevalenströskel (PT) = |
|
Positiv (P) |
Sann positiv (TP), träff |
Falskt negativ (FN), typ II fel , miss, underskattning |
Sann positiv frekvens (TPR), återkallelse , känslighet (SEN), sannolikhet för upptäckt, träfffrekvens, effekt = TP / P = 1 − FNR |
Falsk negativ frekvens (FNR), miss rate = FN / P = 1 − TPR |
|
Negativt (N) |
Falskt positivt (FP), typ I-fel , falskt larm, överskattning |
Sant negativ (TN), korrekt avslag |
Falsk positiv frekvens (FPR), sannolikhet för falskt larm, fall-out = FP / N = 1 − TNR |
Sann negativ frekvens (TNR), specificitet (SPC), selektivitet = TN / N = 1 − FPR |
|
Prevalens = P / P + N |
Positivt prediktivt värde (PPV), precision = TP / PP = 1 − FDR |
Falsk utelämnandefrekvens (FOR) = FN / PN = 1 − NPV |
Positiv sannolikhetskvot (LR+) = TPR / FPR |
Negativ sannolikhetskvot (LR−) = FNR / TNR |
|
Noggrannhet (ACC) = TP + TN / P + N |
Falsk discovery rate (FDR) = FP / PP = 1 − PPV |
Negativt prediktivt värde (NPV) = TN / PN = 1 − FOR |
Markering (MK), deltaP (Δp) = PPV + NPV − 1 |
Diagnostisk oddskvot (DOR) = LR+ / LR− | |
Balanserad noggrannhet (BA) = TPR + TNR / 2 |
F 1 poäng = 2 PPV × TPR / PPV + TPR = 2 TP / 2 TP + FP + FN |
Fowlkes–Mallows index (FM) = |
Matthews korrelationskoefficient (MCC) = |
Hotpoäng (TS), kritiskt framgångsindex (CSI), Jaccard-index = TP / TP + FN + FP |
Observera att raderna motsvarar att tillståndet faktiskt är positivt eller negativt (eller klassificerat som sådant enligt guldstandarden), vilket indikeras av färgkodningen, och den tillhörande statistiken är prevalensoberoende, medan kolumnerna motsvarar att testet är positivt eller negativ, och den tillhörande statistiken är prevalensberoende. Det finns analoga sannolikhetsförhållanden för prediktionsvärden, men dessa är mindre vanligt förekommande och inte avbildade ovan.
Känslighet och specificitet
Den grundläggande prevalensoberoende statistiken är sensitivitet och specificitet .
Sensitivitet eller True Positive Rate (TPR), även känd som återkallelse , är andelen personer som testade positivt och är positiva (True Positive, TP) av alla personer som faktiskt är positiva (Condition Positive, CP = TP + FN). Det kan ses som sannolikheten att testet är positivt givet att patienten är sjuk . Med högre känslighet blir färre faktiska sjukdomsfall oupptäckta (eller, i fallet med fabrikens kvalitetskontroll, går färre felaktiga produkter ut på marknaden).
Specificitet (SPC) eller True Negative Rate (TNR) är andelen personer som testade negativa och är negativa (True Negative, TN) av alla personer som faktiskt är negativa (Condition Negative, CN = TN + FP). Precis som med känslighet kan det ses som sannolikheten att testresultatet är negativt givet att patienten inte är sjuk . Med högre specificitet märks färre friska människor som sjuka (eller, i fabriksfallet, kasseras färre bra produkter).
Relationen mellan sensitivitet och specificitet, såväl som klassificerarens prestanda, kan visualiseras och studeras med hjälp av Receiver Operating Characteristic (ROC)-kurvan.
I teorin är sensitivitet och specificitet oberoende i den meningen att det är möjligt att uppnå 100% i båda (som i exemplet med röd/blå boll ovan). I mer praktiska, mindre konstruerade fall finns det dock vanligtvis en avvägning, så att de i viss mån är omvänt proportionella mot varandra. Detta beror på att vi sällan mäter det faktiska vi skulle vilja klassificera; snarare mäter vi i allmänhet en indikator på det vi skulle vilja klassificera, kallad en surrogatmarkör . Anledningen till att 100% är uppnåeligt i bollexemplet är för att rodnad och blåhet bestäms genom att direkt detektera rodnad och blåhet. Men ibland äventyras indikatorer, till exempel när icke-indikatorer efterliknar indikatorer eller när indikatorer är tidsberoende, och blir tydliga först efter en viss fördröjningstid. Följande exempel på ett graviditetstest kommer att använda en sådan indikator.
Moderna graviditetstester använder inte själva graviditeten för att bestämma graviditetsstatus; snarare humant koriongonadotropin , eller hCG, som finns i urinen hos gravida kvinnor, som en surrogatmarkör för att indikera att en kvinna är gravid. Eftersom hCG också kan produceras av en tumör , kan specificiteten för moderna graviditetstester inte vara 100 % (eftersom falska positiva resultat är möjliga). Dessutom, eftersom hCG finns i urinen i så små koncentrationer efter befruktning och tidig embryogenes , kan känsligheten för moderna graviditetstester inte vara 100% (eftersom falska negativ är möjliga).
Sannolikhetskvoter
Positiva och negativa prediktiva värden
Förutom sensitivitet och specificitet kan prestandan för ett binärt klassificeringstest mätas med positivt prediktivt värde (PPV), även känt som precision , och negativt prediktivt värde (NPV). Det positiva prediktionsvärdet svarar på frågan "Om testresultatet är positivt , hur väl förutsäger det en faktisk förekomst av sjukdom?". Det beräknas som TP/(TP + FP); det vill säga det är andelen sanna positiva av alla positiva resultat. Det negativa prediktionsvärdet är detsamma, men för negativa, naturligtvis.
Inverkan av prevalens på prediktionsvärden
Prevalens har en betydande inverkan på prediktionsvärden. Som ett exempel, anta att det finns ett test för en sjukdom med 99 % sensitivitet och 99 % specificitet. Om 2000 personer testas och prevalensen (i urvalet) är 50%, är 1000 av dem sjuka och 1000 av dem är friska. Således är cirka 990 sanna positiva och 990 sanna negativa sannolika, med 10 falskt positiva och 10 falska negativa. De positiva och negativa förutsägelsevärdena skulle vara 99 %, så det kan finnas hög tilltro till resultatet.
Men om prevalensen bara är 5%, så av de 2000 personerna är bara 100 riktigt sjuka, då ändras prediktionsvärdena avsevärt. Det sannolika resultatet är 99 sanna positiva, 1 falskt negativ, 1881 sanna negativa och 19 falskt positiva. Av de 19+99 personer som testats positivt är det bara 99 som verkligen har sjukdomen – det betyder, intuitivt, att givet att en patients testresultat är positivt är det bara 84 % chans att de verkligen har sjukdomen. Å andra sidan, givet att patientens testresultat är negativt, finns det bara 1 chans 1882, eller 0,05 % sannolikhet, att patienten har sjukdomen trots testresultatet.
Sannolikhetskvoter
Precision och återkallelse
Precision och återkallande kan tolkas som (uppskattade) villkorliga sannolikheter: Precision ges av vid återkallelse ges av , där är den förutsagda klassen och är den faktiska klassen. Båda kvantiteterna är därför förbundna med Bayes sats .
Relationer
Det finns olika samband mellan dessa förhållanden.
Om prevalensen, känsligheten och specificiteten är kända kan det positiva prediktiva värdet erhållas från följande identitet:
Om prevalensen, känsligheten och specificiteten är kända kan det negativa prediktiva värdet erhållas från följande identitet:
Enskilda mätvärden
Utöver de parade mätvärdena finns det också enskilda mätvärden som ger ett enda nummer för att utvärdera testet.
Den kanske enklaste statistiken är noggrannhet eller bråk korrekt (FC), som mäter andelen av alla instanser som är korrekt kategoriserade; det är förhållandet mellan antalet korrekta klassificeringar och det totala antalet korrekta eller felaktiga klassificeringar: (TP + TN)/total population = (TP + TN)/(TP + TN + FP + FN). Som sådan jämför den uppskattningar av sannolikhet före och efter test . Detta mått är prevalensberoende . Om 90 % av personer med covid-symtom inte har covid är den tidigare sannolikheten P(-) 0,9 och den enkla regeln "Klassificera alla sådana patienter som covid-fria." skulle vara 90% korrekt. Diagnosen borde vara bättre än så. Man kan konstruera ett "En-proportion z-test" med p0 som max(priors) = max(P(-),P(+)) för en diagnostisk metod i hopp om att slå en enkel regel med det mest sannolika resultatet. Här är hypoteserna "Ho: p ≤ 0,9 vs. Ha: p > 0,9", vilket förkastar Ho för stora värden på z. En diagnostisk regel skulle kunna jämföras med en annan om den andras noggrannhet är känd och ersätter p0 vid beräkning av z-statistiken. Om det inte är känt och beräknat från data, kan ett noggrannhetsjämförelsetest göras med hjälp av " Två-proportioners z-test, poolat för Ho: p1 = p2" . Inte använd särskilt mycket är den komplementära statistiken, bråkdelen felaktig (FiC): FC + FiC = 1, eller (FP + FN)/(TP + TN + FP + FN) – detta är summan av antidiagonalen , dividerat med total befolkning. Kostnadsvägda fraktioner som är felaktiga kan jämföra förväntade kostnader för felklassificering för olika metoder.
Diagnostisk oddskvot (DOR) kan vara ett mer användbart övergripande mått, som kan definieras direkt som (TP×TN)/(FP×FN) = (TP/FN)/(FP/TN), eller indirekt som ett förhållande av förhållande mellan kvoter (kvot mellan sannolikhetskvoter, som i sig är förhållanden mellan sanna siffror eller förutsägelsevärden). Detta har en användbar tolkning – som en oddskvot – och är prevalensoberoende. Sannolikhetskvoten anses allmänt vara prevalensoberoende och tolkas lätt som multiplikatorn för att förvandla tidigare sannolikheter till posteriora sannolikheter . Ett annat användbart enskilt mått är "area under ROC-kurvan", AUC .
Alternativa mått
En F-poäng är en kombination av precision och återkallelse , vilket ger en enda poäng. Det finns en statistikfamilj med en parameter, med parametern β, som bestämmer de relativa vikterna av precision och återkallelse. Den traditionella eller balanserade F-poängen ( F1-poäng ) är det harmoniska medelvärdet för precision och återkallelse:
- .
F-poäng tar inte hänsyn till den verkliga negativa frekvensen och är därför mer lämpade för informationshämtning och utvärdering av informationsextraktion där de sanna negativa är otaliga. Istället kan mått som phi-koefficienten , Matthews korrelationskoefficient , informedness eller Cohens kappa vara att föredra för att bedöma prestandan hos en binär klassificerare. Som en korrelationskoefficient är Matthews korrelationskoefficient det geometriska medelvärdet av regressionskoefficienterna för problemet och dess dual . Komponentregressionskoefficienterna för Matthews korrelationskoefficient är markering (deltap) och informedness ( Youdens J-statistik eller deltap').
Se även
- Åtgärder för befolkningspåverkan
- Hänförbar risk
- Hänförbar riskprocent
- Poängregel (för sannolikhetsförutsägelser)