Brier poäng

Brier Score är en strikt korrekt poängfunktion eller strikt korrekt poängregel som mäter noggrannheten i probabilistiska förutsägelser . För endimensionella förutsägelser är det strikt ekvivalent med medelkvadratfelet som tillämpas på förutspådda sannolikheter.

Brier-poängen är tillämplig på uppgifter där förutsägelser måste tilldela sannolikheter till en uppsättning ömsesidigt uteslutande diskreta resultat eller klasser. Uppsättningen av möjliga utfall kan vara antingen binär eller kategorisk till sin natur, och sannolikheterna som tilldelas denna uppsättning utfall måste summeras till ett (där varje enskild sannolikhet ligger i intervallet 0 till 1). Det föreslogs av Glenn W. Brier 1950.

Brier-poängen kan ses som en kostnadsfunktion . Mer exakt, över alla objekt i en uppsättning av N förutsägelser, mäter Brier-poängen medelkvadratskillnaden mellan:

  • Den förutsagda sannolikheten som tilldelas de möjliga utfallen för punkt i
  • Det faktiska resultatet

Därför, ju lägre Brier-poängen är för en uppsättning förutsägelser, desto bättre är förutsägelserna kalibrerade. Observera att Brier-poängen, i sin vanligaste formulering, antar ett värde mellan noll och ett, eftersom detta är kvadraten på största möjliga skillnad mellan en förutspådd sannolikhet (som måste vara mellan noll och ett) och det faktiska utfallet (som kan anta värden på endast 0 eller 1). I den ursprungliga (1950) formuleringen av Brier-poängen är intervallet dubbelt, från noll till två.

Brier-poängen är lämplig för binära och kategoriska utfall som kan struktureras som sant eller falskt, men det är olämpligt för ordinalvariabler som kan anta tre eller fler värden.

Definition

Den vanligaste formuleringen av Brier-poängen är

där är sannolikheten som prognostiserades, det faktiska utfallet av händelsen vid instans ( om det händer inte och om det händer) och är antalet prognosinstanser. I själva verket är det medelkvadratfelet i prognosen. Denna formulering används mest för binära händelser (till exempel "regn" eller "inget regn"). Ovanstående ekvation är en korrekt poängregel endast för binära händelser; om en prognos med flera kategorier ska utvärderas, bör den ursprungliga definitionen från Brier nedan användas.

Exempel

Antag att man förutser sannolikheten att det kommer att regna en viss dag. Därefter beräknas Brier-poängen enligt följande:

  • Om prognosen är 100 % ( = 1) och det regnar, är Brier-poängen 0, det bästa möjliga resultatet.
  • Om prognosen är 100 % och det inte regnar, är Brier-poängen 1, det sämsta betyget som kan uppnås.
  • Om prognosen är 70% ( = 0,70) och det regnar, är Brier-poängen (0,70−1) 2 = 0,09.
  • Om prognosen däremot är 70 % ( = 0,70) och det inte regnar, är Brier-poängen (0,70−0) 2 = 0,49.
  • På liknande sätt, om prognosen är 30 % ( = 0,30) och det regnar, är Brier-poängen (0,30−1) 2 = 0,49.
  • Om prognosen är 50% ( = 0.50), så är Brier-poängen (0.50−1) 2 = (0.50−0) 2 = 0.25, oavsett om det regnar.

Ursprunglig definition av Brier

Även om formuleringen ovan är den mest använda, är den ursprungliga definitionen av Brier tillämplig på prognoser med flera kategorier och den förblir en korrekt poängregel, medan den binära formen (som används i exemplen ovan) endast är lämplig för binära händelser . För binära prognoser har den ursprungliga formuleringen av Briers "sannolikhetspoäng" två gånger värdet av poängen som för närvarande kallas Brier-poängen.

I vilken är antalet möjliga klasser som händelsen kan falla i, och det totala antalet instanser av alla klasser. är den förutsagda sannolikheten för klass är om det är -klassen i instant ; , annars. För fallet Regn / Inget regn, , medan för prognosen Kallt / Normalt / Varmt, .


Nedbrytningar

Det finns flera nedbrytningar av Brier-poängen som ger en djupare insikt om beteendet hos en binär klassificerare.

3-komponentsupplösning

Brier-poängen kan delas upp i 3 additivkomponenter: osäkerhet, tillförlitlighet och upplösning. (Murphy 1973)

Var och en av dessa komponenter kan dekomponeras ytterligare enligt antalet möjliga klasser som händelsen kan falla i. Missbruka jämställdhetstecknet:

Med som det totala antalet utfärdade prognoser, antalet unika prognoser som utfärdats, \ antalet prognoser med samma sannolikhetskategori och den observerade frekvensen, givet sannolikhetsprognoser . Den fetstilta notationen i ovanstående formel indikerar vektorer, vilket är ett annat sätt att beteckna den ursprungliga definitionen av poängen och sönderdela den enligt antalet möjliga klasser där händelsen kan falla. Till exempel betecknas en 70 % risk för regn och en förekomst av inget regn som och respektive. Operationer som kvadraten och multiplikationen på dessa vektorer förstås vara komponentmässiga. Brier-poängen är då summan av den resulterande vektorn på höger sida.

Osäkerhet

Osäkerhetstermen mäter den inneboende osäkerheten i händelsens utfall. För binära händelser är det maximalt när varje utfall inträffar 50 % av tiden, och är minimalt (noll) om ett utfall alltid inträffar eller aldrig inträffar.

Pålitlighet

Tillförlitlighetstermen mäter hur nära prognossannolikheterna är de sanna sannolikheterna, givet den prognosen. Tillförlitlighet definieras i motsatt riktning jämfört med engelska . Om tillförlitligheten är 0 är prognosen helt tillförlitlig. Om vi ​​till exempel grupperar alla prognostillfällen där 80 % risk för regn förutsades, får vi en perfekt tillförlitlighet endast om det regnade 4 av 5 gånger efter att en sådan prognos utfärdades.

Upplösning

Upplösningstermen mäter hur mycket de villkorade sannolikheterna givet de olika prognoserna skiljer sig från det klimatiska genomsnittet. Ju högre denna term är desto bättre. I värsta fall, när den klimatmässiga sannolikheten alltid prognostiseras, är upplösningen noll. I bästa fall, när de villkorade sannolikheterna är noll och ett, är upplösningen lika med osäkerheten.

Tvåkomponentsupplösning

En alternativ (och relaterad) sönderdelning genererar två termer istället för tre.

Den första termen är känd som kalibrering (och kan användas som ett mått på kalibrering, se statistisk kalibrering ), och är lika med tillförlitlighet. Den andra termen är känd som förfining, och det är en aggregering av upplösning och osäkerhet, och är relaterad till området under ROC -kurvan.

Brier-poängen, och CAL + REF-nedbrytningen, kan representeras grafiskt genom de så kallade Brier-kurvorna, där den förväntade förlusten visas för varje drifttillstånd. Detta gör Brier Score till ett mått på aggregerad prestation under en enhetlig fördelning av klassasymmetrier.

Brier Skill Score (BSS)

Ett skicklighetspoäng för en given underliggande poäng är en offset och (negativt) skalad variant av den underliggande poängen så att ett skicklighetspoängvärde på noll betyder att poängen för förutsägelserna bara är lika bra som den för en uppsättning baslinje eller referens eller standardförutsägelser, medan ett skicklighetspoängvärde på ett (100 %) representerar bästa möjliga poäng. Ett skicklighetspoängvärde som är mindre än noll betyder att prestandan är ännu sämre än den för baslinjen eller referensförutsägelserna. När den underliggande poängen är Brier-poängen (BS), beräknas Brier-färdighetspoängen (BSS) som

där är Brier-poängen för referens- eller baslinjeförutsägelser som vi försöker förbättra. Även om referensförutsägelserna i princip kan ges av vilken redan existerande modell som helst, kan man som standard använda den naiva modellen som förutsäger den övergripande andelen eller frekvensen av en given klass i datamängden som poängsätts, som den konstanta förutspådda sannolikheten för den klassen förekommer i varje instans i datamängden. Denna baslinjemodell skulle representera en "ingen färdighet"-modell som man försöker förbättra. Färdighetspoäng har sitt ursprung i den meteorologiska förutsägelselitteraturen, där de naiva standardreferensförutsägelserna kallas "klimatologiska förutsägelser i urvalet", där klimatologi betyder ett långsiktigt eller övergripande medelvärde av väderförutsägelser, och medelvärden i urvalet beräknat från nuvarande datauppsättning som poängsätts. I detta standardfall, för binär (tvåklass) klassificering, ges referensen Brier-poäng av (med hjälp av notationen i den första ekvationen i denna artikel, högst upp i avsnittet Definition):

där helt enkelt är det genomsnittliga faktiska resultatet, dvs. den totala andelen sann klass 1 i datamängden:

Med en Brier-poäng är lägre bättre (det är en förlustfunktion) med 0 som bästa möjliga poäng. Men med en Brier-färdighetspoäng är högre bättre med 1 (100%) som bästa möjliga poäng.

Brier-färdighetspoängen kan vara mer tolkbar än Brier-poängen eftersom BSS helt enkelt är den procentuella förbättringen i BS jämfört med referensmodellen, och en negativ BSS betyder att du gör det ännu sämre än referensmodellen, vilket kanske inte är uppenbart från tittar på själva Brier-poängen. En BSS nära 100% bör dock vanligtvis inte förväntas eftersom detta skulle kräva att varje sannolikhetsförutsägelse var nästan 0 eller 1 (och var naturligtvis korrekt).

Eftersom Brier-poängen är en strikt korrekt poängregel , och BSS bara är en affin transformation av den, är BSS också en strikt korrekt poängregel.

Du kanske märker att klassificeringens (sannolikhetsuppskattning) BSS är till dess BS, eftersom regressionens bestämningskoefficient ( ) är till dess medelkvadratfel (MSE).

Brister

Brier-poängen blir otillräcklig för mycket sällsynta (eller mycket frekventa) händelser, eftersom den inte i tillräcklig utsträckning skiljer mellan små förändringar i prognosen som är signifikanta för sällsynta händelser. Wilks (2010) har funnit att "[Ganska] stora urvalsstorlekar, dvs n > 1000, krävs för prognoser med högre kompetens av relativt sällsynta händelser, medan endast ganska blygsamma urvalsstorlekar behövs för prognoser med låg kompetens av vanliga händelser. "

Se även

Vidare läsning

Anteckningar