Total driftkaraktäristik

Total operation characteristic (TOC) är en statistisk metod för att jämföra en boolesk variabel med en rangvariabel . TOC kan mäta förmågan hos en indexvariabel att diagnostisera antingen närvaro eller frånvaro av en egenskap. Diagnosen närvaro eller frånvaro beror på om indexvärdet ligger över en tröskel. TOC överväger flera möjliga trösklar. beredskapstabell två gånger två , som innehåller fyra poster: träffar, missar, falska larm och korrekta avslag.

Mottagarens driftkarakteristik (ROC) kännetecknar också diagnostisk förmåga, även om ROC avslöjar mindre information än TOC. För varje tröskel avslöjar ROC två förhållanden, träffar/(träffar + missar) och falska larm/(falskt larm + korrekta avslag), medan TOC visar den totala informationen i beredskapstabellen för varje tröskel. TOC-metoden avslöjar all information som ROC-metoden ger, plus ytterligare viktig information som ROC inte avslöjar, dvs storleken på varje post i beredskapstabellen för varje tröskel. TOC tillhandahåller också det populära området under kurvan (AUC) för ROC.

TOC är tillämpligt för att mäta diagnostisk förmåga inom många områden inklusive men inte begränsat till: markförändringsvetenskap, medicinsk bildbehandling , väderprognoser , fjärranalys och materialtestning .

Grundläggande koncept

Proceduren för att konstruera TOC-kurvan jämför den booleska variabeln med indexvariabeln genom att diagnostisera varje observation som antingen närvaro eller frånvaro, beroende på hur indexet relaterar till olika trösklar. Om en observations index är större än eller lika med ett tröskelvärde, diagnostiseras observationen som närvaro, annars diagnostiseras observationen som frånvaro. Beredskapstabellen som är resultatet av jämförelsen mellan den booleska variabeln och diagnosen för en enskild tröskel har fyra centrala poster. De fyra centrala posterna är träffar ( H ), missar ( M ), falsklarm ( F ) och korrekta avslag ( C ). Det totala antalet observationer är P + Q . Termerna "sanna positiva", "falska negativa", "falska positiva" och "sanna negativa" är likvärdiga med träffar, missar, falska larm respektive korrekta avslag. Posterna kan formuleras i en två-till-två beredskapstabell eller förvirringsmatris, enligt följande:

Diagnos

Boolean
Närvaro Frånvaro Boolean totalt
Närvaro Träffar ( H ) Missar ( M ) H + M = P
Frånvaro Falska larm ( F ) Rätta avslag ( C ) F + C = Q
Diagnos totalt H + F M + C P + Q

Fyra informationsbitar bestämmer alla poster i beredskapstabellen, inklusive dess marginella summor. Till exempel, om vi känner till H , M , F och C , då kan vi beräkna alla marginalsummor för varje tröskelvärde. Alternativt, om vi känner till H / P , F / Q , P och Q , så kan vi beräkna alla poster i tabellen. Två informationsbitar är inte tillräckliga för att komplettera beredskapstabellen. Till exempel, om vi bara känner till H / P och F / Q , vilket är vad ROC visar, är det omöjligt att känna till alla poster i tabellen.

Historia

Robert Gilmore Pontius Jr , professor i geografi vid Clark University , och Kangping Si utvecklade 2014 först TOC för tillämpning inom markförändringsvetenskap.

TOC-utrymme

TOC-märkt

TOC-kurvan med fyra rutor indikerar hur en punkt på TOC-kurvan avslöjar träffar, missar, falska larm och korrekta avslag. TOC-kurvan är ett effektivt sätt att visa den totala informationen i beredskapstabellen för alla trösklar. Datan som används för att skapa denna TOC-kurva finns tillgänglig för nedladdning här . Denna datauppsättning har 30 observationer, som var och en består av värden för en boolesk variabel och en indexvariabel. Observationerna rangordnas från det största till det lägsta värdet av indexet. Det finns 31 trösklar, bestående av indexets 30 värden och ytterligare ett tröskelvärde som är större än alla indexvärden, vilket skapar punkten vid origo (0,0). Varje punkt är märkt för att indikera värdet för varje tröskel. De horisontella axlarna sträcker sig från 0 till 30 vilket är antalet observationer i datamängden ( P + Q ). Den vertikala axeln sträcker sig från 0 till 10, vilket är den booleska variabelns antal närvaroobservationer P (dvs. träffar + missar). TOC-kurvor visar också tröskeln vid vilken den diagnostiserade mängden närvaro matchar den booleska närvaron, vilket är den tröskelpunkt som ligger direkt under punkten där maxlinjen möter träffarna + missar linjen, som TOC-kurvan till vänster illustrerar . För en mer detaljerad förklaring av konstruktionen av TOC-kurvan, se Pontius Jr, Robert Gilmore; Si, Kangping (2014). "Den totala driftkarakteristiken för att mäta diagnostisk förmåga för flera trösklar." International Journal of Geographical Information Science 28 (3): 570–583.”

Följande fyra delar av information är de centrala posterna i beredskapstabellen för varje tröskel:

  1. Antalet träffar vid varje tröskelvärde är avståndet mellan tröskelns punkt och den horisontella axeln.
  2. Antalet missar vid varje tröskelvärde är avståndet mellan tröskelns punkt och träffarna + missar horisontell linje över toppen av grafen.
  3. Antalet falska larm vid varje tröskelvärde är avståndet mellan tröskelns punkt och den blå streckade Maximum-linjen som avgränsar den vänstra sidan av TOC-utrymmet.
  4. Antalet korrekta avslag vid varje tröskelvärde är avståndet mellan tröskelns punkt och den lila streckade minimumlinjen som avgränsar den högra sidan av TOC-utrymmet.

TOC vs. ROC-kurvor

TOC-kurva
ROC-kurva

Dessa siffror är TOC- och ROC-kurvorna som använder samma data och tröskelvärden. Tänk på punkten som motsvarar ett tröskelvärde på 74. TOC-kurvan visar antalet träffar, vilket är 3, och därav antalet missar, vilket är 7. Dessutom visar TOC-kurvan att antalet falska larm är 4 och antalet korrekta avslag är 16. Vid varje given punkt i ROC-kurvan är det möjligt att ta fram värden för förhållandena mellan falsklarm/(falskt larm+rätta avslag) och träffar/(träff+missar). Till exempel, vid tröskeln 74, är det uppenbart att x-koordinaten är 0,2 och y-koordinaten är 0,3. Dessa två värden är emellertid otillräckliga för att konstruera alla poster i den underliggande två-till-två-kontingenstabellen.

Tolka TOC-kurvor

Det är vanligt att rapportera arean under kurvan (AUC) för att sammanfatta en TOC- eller ROC-kurva. Att kondensera diagnostisk förmåga till ett enda nummer misslyckas dock med att uppskatta kurvans form. Följande tre TOC-kurvor är TOC-kurvor som har en AUC på 0,75 men har olika former.

TOC-kurva med högre noggrannhet vid höga trösklar.

Denna TOC-kurva till vänster exemplifierar ett fall där indexvariabeln har en hög diagnostisk förmåga vid höga tröskelvärden nära origo, men slumpmässig diagnostisk förmåga vid låga trösklar nära det övre högra hörnet av kurvan. Kurvan visar exakt diagnos av närvaro tills kurvan når ett tröskelvärde på 86. Kurvan planar sedan ut och förutsäger runt den slumpmässiga linjen.

TOC-kurva med medelhög noggrannhet vid alla trösklar.

Denna TOC-kurva exemplifierar ett fall där indexvariabeln har en medeldiagnostisk förmåga vid alla trösklar. Kurvan ligger konsekvent ovanför den slumpmässiga linjen.

TOC-kurva med högre noggrannhet vid lägre tröskelvärden.

Denna TOC-kurva exemplifierar ett fall där indexvariabeln har slumpmässig diagnostisk förmåga vid höga trösklar och hög diagnostisk förmåga vid låga trösklar. Kurvan följer den slumpmässiga linjen vid de högsta tröskelvärdena nära origo, sedan diagnostiserar indexvariabeln frånvaro korrekt när tröskelvärdena minskar nära det övre högra hörnet.

Area under kurvan

Vid mätning av diagnostisk förmåga är ett vanligt rapporterat mått området under kurvan (AUC). AUC kan beräknas från TOC och ROC. Värdet på AUC är konsekvent för samma data oavsett om du beräknar arean under kurvan för en TOC-kurva eller en ROC-kurva. AUC indikerar sannolikheten att diagnosen rankar en slumpmässigt vald observation av boolesk närvaro högre än en slumpmässigt vald observation av boolesk frånvaro. AUC är tilltalande för många forskare eftersom AUC sammanfattar diagnostisk förmåga i ett enda nummer, men AUC har kommit under kritik som en potentiellt vilseledande åtgärd, särskilt för rumsligt explicita analyser. Några egenskaper hos AUC som drar till sig kritik inkluderar det faktum att 1) ​​AUC ignorerar tröskelvärdena; 2) AUC sammanfattar testprestanda över regioner i TOC- eller ROC-utrymmet där man sällan skulle operera; 3) AUC väger utelämnande och provisionsfel lika; 4) AUC ger inte information om den rumsliga fördelningen av modellfel; och 5) valet av rumslig utsträckning påverkar i hög grad graden av exakt diagnostiserade frånvaro och AUC-poängen. Men de flesta av dessa kritiker gäller många andra mätvärden.

När normaliserade enheter används är arean under kurvan (ofta kallad AUC) lika med sannolikheten att en klassificerare kommer att ranka en slumpmässigt vald positiv instans högre än en slumpmässigt vald negativ (förutsatt att 'positiv' rankas högre än ' negativ'). Detta kan ses på följande sätt: arean under kurvan ges av (integralgränserna är omvända då stort T har ett lägre värde på x-axeln)

där är poängen för en positiv instans och är poängen för en negativ instans, och och är sannolikhetstätheter som definierats i föregående avsnitt.

Det kan vidare visas att AUC är nära relaterat till Mann–Whitney U , som testar om positiva rankas högre än negativa. Det är också likvärdigt med Wilcoxon test av rangordnar . AUC är relaterad till Gini-koefficienten ( ) med formeln , var:

På detta sätt är det möjligt att beräkna AUC genom att använda ett medelvärde av ett antal trapetsformade approximationer.

Det är också vanligt att beräkna arean under det konvexa TOC-skrovet (ROC AUCH = ROCH AUC) eftersom vilken punkt som helst på linjesegmentet mellan två prediktionsresultat kan uppnås genom att slumpmässigt använda det ena eller det andra systemet med sannolikheter proportionella mot den relativa längden av den motsatta komponenten av segmentet. Det går också att invertera konkaviteter – precis som i figuren kan den sämre lösningen reflekteras för att bli en bättre lösning; konkaviteter kan reflekteras i vilket linjesegment som helst, men denna mer extrema form av sammansmältning är mycket mer sannolikt att överpassa data.

Ett annat problem med TOC AUC är att en minskning av TOC-kurvan till ett enda tal ignorerar det faktum att det handlar om avvägningarna mellan de olika systemen eller prestandapunkter som ritats och inte prestanda för ett individuellt system, samt ignorerar möjligheten till konkavitetsreparation , så att relaterade alternativa åtgärder som Informedness [ citation needed ] eller DeltaP rekommenderas. Dessa mått är i huvudsak ekvivalenta med Gini för en enda förutsägelsepunkt med DeltaP' = informeradhet = 2AUC-1, medan DeltaP = markering representerar dualen (dvs. förutsäga förutsägelsen från den verkliga klassen) och deras geometriska medelvärde är Matthews korrelationskoefficient . [ citat behövs ]

Medan TOC AUC varierar mellan 0 och 1 - med en oinformativ klassificerare som ger 0,5 - har de alternativa måtten som kallas informedness , [ citat behövs ] Säkerhet och Gini-koefficient (i fallet med enstaka parametrisering eller enstaka system) [ citat behövs ] alla har fördelen att 0 representerar slumpmässig prestation medan 1 representerar perfekt prestation, och −1 representerar det "perversa" fallet med full informeradhet som alltid ger fel svar. Genom att bringa chansprestanda till 0 kan dessa alternativa skalor tolkas som Kappa-statistik. Upplysthet har visat sig ha önskvärda egenskaper för maskininlärning jämfört med andra vanliga definitioner av Kappa som Cohen kappa och Fleiss kappa . [ citat behövs ]

Ibland kan det vara mer användbart att titta på ett specifikt område av TOC-kurvan snarare än på hela kurvan. Det är möjligt att beräkna partiell AUC. Till exempel skulle man kunna fokusera på området av kurvan med låg falsk positiv frekvens, vilket ofta är av stort intresse för populationsscreeningtest. Ett annat vanligt tillvägagångssätt för klassificeringsproblem där P ≪ N (vanligt i bioinformatiktillämpningar) är att använda en logaritmisk skala för x-axeln.


Vidare läsning

  • Pontius Jr, Robert Gilmore; Si, Kangping (2014). "Den totala driftkarakteristiken för att mäta diagnostisk förmåga för flera trösklar". International Journal of Geographical Information Science . 28 (3): 570–583. doi : 10.1080/13658816.2013.862623 .
  • Pontius Jr, Robert Gilmore; Parmentier, Benoit (2014). "Rekommendationer för användning av ROC (Relative Operating Characteristic)". Landskapsekologi . 29 (3): 367–382. doi : 10.1007/s10980-013-9984-8 .
  • Mas, Jean-François; Filho, Britaldo Soares; Pontius Jr, Robert Gilmore; Gutiérrez, Michelle Farfán; Rodrigues, Hermann (2013). "En uppsättning verktyg för ROC-analys av rumsliga modeller" . ISPRS International Journal of Geo-Information . 2 (3): 869–887. doi : 10.3390/ijgi2030869 .
  • Pontius Jr, Robert Gilmore; Pacheco, Pablo (2004). "Kalibrering och validering av en modell av skogsstörning i västra Ghats, Indien 1920–1990". GeoJournal . 61 (4): 325–334. doi : 10.1007/s10708-004-5049-5 .
  • Pontius Jr, Robert Gilmore; Batchu, Kiran (2003). "Att använda den relativa driftskaraktäristiken för att kvantifiera säkerhet vid förutsägelse av platsen för marktäckeförändringen i Indien". Transaktioner i GIS . 7 (4): 467–484. doi : 10.1111/1467-9671.00159 .
  • Pontius Jr, Robert Gilmore; Schneider, Laura (2001). "Verifiering av modell för markanvändning av förändringar med en ROC-metod för Ipswich vattendelare, Massachusetts, USA". Jordbruk, ekosystem & miljö . 85 (1–3): 239–248. doi : 10.1016/s0167-8809(01)00187-6 .

Se även

externa länkar