Fleiss' kappa
Fleiss' kappa (uppkallad efter Joseph L. Fleiss ) är ett statistiskt mått för att bedöma tillförlitligheten av överensstämmelse mellan ett fast antal bedömare när man tilldelar kategoriska betyg till ett antal poster eller klassificerar föremål. Detta står i kontrast till andra kappas som Cohens kappa , som bara fungerar när man bedömer överenskommelsen mellan högst två bedömare eller tillförlitligheten inom bedömare (för en värderingsman kontra dem själva). Måttet beräknar graden av överensstämmelse i klassificeringen över vad som skulle förväntas av en slump.
Fleiss' kappa kan användas med binär eller nominell skala . Det kan också tillämpas på Ordinaldata (rankad data): MiniTab online-dokumentationen ger ett exempel. Det här dokumentet noterar dock: "När du har ordinarie värderingar, som t.ex. defektens allvarlighetsgrad på en skala från 1–5, Kendalls koefficienter , som står för ordning, vanligtvis mer lämplig statistik för att bestämma association än kappa enbart." Kom dock ihåg att Kendalls rangkoefficienter endast är lämpliga för rangdata.
Introduktion
Fleiss kappa är en generalisering av Scotts pi- statistik, ett statistiskt mått på tillförlitlighet mellan bedömare . Det är också relaterat till Cohens kappa-statistik och Youdens J-statistik som kan vara mer lämplig i vissa fall. Medan Scotts pi och Cohens kappa endast fungerar för två bedömare, fungerar Fleiss kappa för valfritt antal bedömare som ger kategoriska betyg, till ett fast antal artiklar, under förutsättning att bedömarna för varje objekt tas slumpmässigt. Det kan tolkas som att det uttrycker i vilken utsträckning den observerade mängden överensstämmelse mellan bedömare överstiger vad som skulle förväntas om alla bedömare gjorde sina betyg helt slumpmässigt. Det är viktigt att notera att medan Cohens kappa antar att samma två bedömare har betygsatt en uppsättning artiklar, tillåter Fleiss kappa specifikt att även om det finns ett fast antal bedömare (t.ex. tre), så kan olika artiklar betygsättas av olika individer ( Fleiss, 1971, s. 378). Det vill säga, objekt 1 är betygsatt av bedömare A, B och C; men punkt 2 skulle kunna bedömas av bedömare D, E och F. Tillståndet för slumpmässigt urval bland bedömare gör att Fleiss kappa inte lämpar sig för fall där alla bedömare bedömer alla patienter.
Överensstämmelse kan tänkas på följande sätt, om ett fast antal personer tilldelar numeriska betyg till ett antal objekt så kommer kappan att ge ett mått på hur konsekventa betygen är. Kappan, , kan definieras som,
(1)
Faktorn ger graden av överensstämmelse som kan uppnås över slumpen, och ger graden av överensstämmelse som faktiskt uppnås över chansen. Om bedömarna är helt överens är . Om det inte finns någon överenskommelse mellan bedömarna (annat än vad som skulle förväntas av en slump) så .
Ett exempel på användningen av Fleiss kappa kan vara följande: Tänk på att flera psykiatriker uppmanas att titta på tio patienter. För varje patient ger 14 psykiatriker en av möjligen fem diagnoser. Dessa sammanställs till en matris, och Fleiss kappa kan beräknas från denna matris (se exempel nedan ) för att visa graden av överensstämmelse mellan psykiatrikerna över den nivå av enighet som förväntas av en slump.
Definition
Låt N vara det totala antalet ämnen, låt n vara antalet betyg per ämne och låt k vara antalet kategorier som uppdrag görs i. Ämnena indexeras med i = 1, ... N och kategorierna indexeras med j = 1, ... k . Låt n ij representera antalet bedömare som tilldelade det i -te subjektet till den j -te kategorin.
Beräkna först p j , andelen av alla uppdrag som tillhörde den j -:e kategorin:
(2)
Beräkna nu i vilken utsträckning bedömarna är överens för det i -te ämnet (dvs. beräkna hur många bedömare--bedömarpar är överens, i förhållande till antalet möjliga bedömare --bedömarpar):
(3)
Beräkna nu , medelvärdet av s och som går in i formeln för :
(4)
(5)
Arbetat exempel
1 | 2 | 3 | 4 | 5 | ||
---|---|---|---|---|---|---|
1 | 0 | 0 | 0 | 0 | 14 | 1 000 |
2 | 0 | 2 | 6 | 4 | 2 | 0,253 |
3 | 0 | 0 | 3 | 5 | 6 | 0,308 |
4 | 0 | 3 | 9 | 2 | 0 | 0,440 |
5 | 2 | 2 | 8 | 1 | 1 | 0,330 |
6 | 7 | 7 | 0 | 0 | 0 | 0,462 |
7 | 3 | 2 | 6 | 3 | 0 | 0,242 |
8 | 2 | 5 | 3 | 2 | 2 | 0,176 |
9 | 6 | 5 | 2 | 1 | 0 | 0,286 |
10 | 0 | 2 | 2 | 3 | 7 | 0,286 |
Total | 20 | 28 | 39 | 21 | 32 | |
0,143 | 0,200 | 0,279 | 0,150 | 0,229 |
I följande exempel, för vart och ett av tio "ämnen" ( ) tilldelar fjorton bedömare ( ), samplade från en större grupp, totalt fem kategorier ( ). Kategorierna presenteras i kolumnerna, medan ämnena presenteras i raderna. Varje cell listar antalet bedömare som tilldelade den angivna (raden) under förutsättning att den angivna (kolumnen) kategorin.
Data
Se tabellen till höger.
N = 10, n = 14, k = 5
Summan av alla celler = 140 Summan av Pi = 3,780
Beräkningar
Värdet är andelen av alla tilldelningar ( , här som var gjort till e kategorin. Om man till exempel tar den första kolumnen,
Och tar andra raden,
För att kunna beräkna måste vi veta summan av ,
Över hela arket,
Tolkning
Landis och Koch (1977) gav följande tabell för tolkning av -värden för ett 2-annotator 2-klassexempel. Denna tabell är dock inte på något sätt allmänt accepterad. De tillhandahöll inga bevis för att stödja det, utan baserade det istället på personliga åsikter. Det har noterats att dessa riktlinjer kan vara mer skadliga än användbara, eftersom antalet kategorier och ämnen kommer att påverka storleken på värdet. Till exempel är kappan högre när det finns färre kategorier.
Skick | Tolkning | |
---|---|---|
Subjektivt exempel: endast för två kommentatorer, på två klasser. Se Landis & Koch 1977 |
< 0 | Dåligt avtal |
0,01 – 0,20 | Lite enighet | |
0,21 – 0,40 | Rättvis överenskommelse | |
0,41 – 0,60 | Måttlig överenskommelse | |
0,61 – 0,80 | Väsentlig överenskommelse | |
0,81 – 1,00 | Nästan perfekt avtal |
Tester av betydelse
Statistiska paket kan beräkna en standardpoäng (Z-poäng) för Cohens kappa eller Fleiss's Kappa, som kan omvandlas till ett P-värde . Men även när P-värdet når tröskeln för statistisk signifikans (typiskt mindre än 0,05), indikerar det bara att överensstämmelsen mellan bedömare är betydligt bättre än vad som skulle förväntas av en slump. P-värdet säger inte i sig om avtalet är tillräckligt bra för att ha ett högt prediktivt värde.
Se även
- ^ MiniTab Inc. Kappa-statistik för analys av attributavtal. https://support.minitab.com/en-us/minitab/18/help-and-how-to/quality-and-process-improvement/measurement-system-analysis/how-to/attribute-agreement-analysis/ attribut-avtal-analys/tolka-resultaten/all-statistik-och-grafer/kappa-statistik/ Tillgänglig 22 januari 2019.
- ^ Fleiss, JL (1971) "Mätning av nominell skalaöverenskommelse bland många bedömare." Psychological Bulletin , vol. 76, nr 5 s. 378–382
- ^ Scott, W. (1955). "Tillförlitlighet hos innehållsanalys: fallet med kodning i nominell skala." Public Opinion Quarterly , Vol. 19, nr 3, s. 321–325.
- ^ Powers, DMW (2011). "Utvärdering: Från precision, återkallelse och F-mått till ROC, informeradhet, markering och korrelation". Journal of Machine Learning Technologies 2 (1): 37–63
- ^ Powers, David MW (2012). "Problemet med Kappa". Konferens för European Chapter av Association for Computational Linguistics (EACL2012) Joint ROBUS-UNSUP Workshop.
- ^ Landis, JR och Koch, GG (1977) "Mätningen av observatörsöverenskommelse för kategoriska data" i Biometrics . Vol. 33, s. 159–174
- ^ Gwet, KL (2014) Handbook of Inter-Rater Reliability (4:e upplagan), kapitel 6. (Gaithersburg: Advanced Analytics, LLC) ISBN 978-0970806284 . http://www.agreestat.com/book4/9780970806284_chap2.pdf
- ^ Sim, J. och Wright, CC (2005) "Kappastatistiken i tillförlitlighetsstudier: Användnings-, tolknings- och provstorlekskrav" i sjukgymnastik . Vol. 85, nr 3, s. 257–268
- ^ Hallgren, Kevin A. (2012) "Computing Inter-Rater Reliability for Observational Data: An Overview and Tutorial" i Handledningar i kvantitativa metoder för psykologi , Vol. 8, nr 1 s 23–34.
Vidare läsning
- Fleiss, JL och Cohen, J. (1973) "The equivalence of weighted kappa and the intraclass correlation coefficient as measurement of reliability" i Educational and Psychological Measurement, Vol. 33 s. 613–619
- Fleiss, JL (1981) Statistiska metoder för hastigheter och proportioner . 2:a uppl. (New York: John Wiley) s. 38–46
- Gwet, KL (2008) " Computing inter-rater reliability and its varians in the presence of high agreement Archived 2016-03-03 at the Wayback Machine ", British Journal of Mathematical and Statistical Psychology, Vol. 61, sid 29–48
externa länkar
- AgreeStat 360: molnbaserad interbedömartillförlitlighetsanalys, Cohens kappa, Gwets AC1/AC2, Krippendorffs alfa, Brennan-Prediger, Fleiss generaliserad kappa, intraklasskorrelationskoefficienter
- Kappa: För- och nackdelar innehåller en bra bibliografi över artiklar om koefficienten.
- Online Kappa Calculator Arkiverad 2009-02-28 på Wayback Machine beräknar en variant av Fleiss kappa.