Krippendorffs alfa

Krippendorffs alfakoefficient , uppkallad efter akademikern Klaus Krippendorff , är ett statistiskt mått på överensstämmelsen som uppnås vid kodning av en uppsättning analysenheter. Sedan 1970-talet har alfa använts i innehållsanalys där textenheter kategoriseras av utbildade läsare, i rådgivning och enkätforskning där experter kodar öppna intervjudata till analyserbara termer, i psykologiska tester där alternativa tester av samma fenomen behöver göras. jämförda, eller i observationsstudier där ostrukturerade händelser registreras för efterföljande analys.

Krippendorffs alfa generaliserar flera känd statistik, ofta kallad mått på överensstämmelse mellan kodare, tillförlitlighet mellan bedömare , tillförlitlighet för kodning av givna uppsättningar enheter (till skillnad från att förena) men den skiljer sig också från statistik som kallas tillförlitlighetskoefficienter men som är olämpliga för att uppgifterna om kodningsdata som genereras för efterföljande analys.

Krippendorffs alfa är tillämplig på valfritt antal kodare, som var och en tilldelar ett värde till en analysenhet, för ofullständiga (saknade) data, till valfritt antal värden som är tillgängliga för kodning av en variabel, till binär, nominell, ordinär, intervall, kvot, polär , och cirkulära mått (observera att detta inte är ett mått i matematisk mening, utan ofta kvadraten på ett matematiskt mått , se mätnivåer ), och det anpassar sig till små urvalsstorlekar av tillförlitlighetsdata. Fördelen med en enda koefficient med dessa variationer är att beräknade tillförlitligheter är jämförbara över valfritt antal kodare, värden, olika mätvärden och olika urvalsstorlekar.

Mjukvara för att beräkna Krippendorffs alfa finns tillgänglig.

Tillförlitlighetsdata

Tillförlitlighetsdata genereras i en situation där m ≥ 2 gemensamt instrueras (t.ex. av en kodbok ) men oberoende fungerande kodare tilldelar något av en uppsättning värden 1,..., V till en gemensam uppsättning av N analysenheter . I sin kanoniska ci form är tillförlitlighetsdata tabellerade i en m -för- N- uj matris innehållande N värden vij som kodaren har tilldelat enheten . Definiera m j som antalet värden som tilldelats enhet j över alla kodare c . När data är ofullständiga m j vara mindre än m . Tillförlitlighetsdata kräver att värden är parbara, dvs. m j ≥ 2. Det totala antalet parbara värden är n mN .

För att förtydliga, här är hur den kanoniska formen ser ut, i det abstrakta:

u 1 u 2 u 3 ... u N
c 1 v 11 v 12 v 13 v 1 N
c 2 v 21 v 22 v 23 v 2 N
c 3 v 31 v 32 v 33 v 3 N
c m v m 1 v m 2 v m 3 v mN

Allmän form av alfa

Vi betecknar med mängden av alla möjliga svar en observatör kan ge. Svaren från alla observatörer för ett exempel kallas en enhet (den bildar en multiset). Vi betecknar en multiset med dessa enheter som objekten, .

Alfa ges av:

där är den observerade oenigheten och är den oenighet som förväntas av en slump.

där är en metrisk funktion (observera att detta inte är ett mått i matematisk mening, utan ofta kvadraten på ett matematiskt mått, se nedan), är det totala antalet parbara element, är antalet objekt i en enhet, antal par i enheten och är permutationsfunktionen . Om du ordnar om termer kan summan tolkas på ett begreppsmässigt sätt som det viktade genomsnittet av oenigheten mellan de individuella enheterna --- viktat med antalet kodare som tilldelats enhet j:

där är medelvärdet av talen (här och definiera parbara element). Observera att i fallet för alla , är bara medelvärdet för alla siffror med . Det finns också en tolkning av som det (vägda) genomsnittliga observerade avståndet från diagonalen.

där är antalet sätt som paret kan göras på. Detta kan ses vara det genomsnittliga avståndet från diagonalen för alla möjliga par av svar som skulle kunna härledas från multiuppsättningen av alla observationer.

Ovanstående är ekvivalent med den vanliga formen av när den väl har förenklats algebraiskt.

En tolkning av Krippendorffs alfa är:

indikerar perfekt tillförlitlighet
indikerar fullständig frånvaro av tillförlitlighet. Enheter och de värden som tilldelats dem är statistiskt orelaterade.
när meningsskiljaktigheter är systematiska och överstiger vad som kan förväntas av en slump.

I denna allmänna form kan meningsskiljaktigheter Do och D e vara begreppsmässigt transparenta men är beräkningsmässigt ineffektiva . De kan förenklas algebraiskt, särskilt när de uttrycks i termer av den visuellt mer instruktiva sammanfallsmatrisrepresentationen av tillförlitlighetsdata.


Tillfällighetsmatriser

En koincidensmatris korstabellerar de n parbara värdena från den kanoniska formen av tillförlitlighetsdata till en v -för- v kvadratisk matris, där v är antalet tillgängliga värden i en variabel. Till skillnad från beredskapsmatriser, bekanta i associations- och korrelationsstatistik, som tabellerar par av värden ( korstabulering ), tabellerar en tillfällighetsmatris alla parbara värden . En sammanfallsmatris utelämnar referenser till kodare och är symmetrisk runt dess diagonal, som innehåller alla perfekta matchningar, v iu = v i'u för två kodare i och i' , över alla enheter u . Matrisen av observerade sammanträffanden innehåller frekvenser:

utelämna oparade värden, där I (∘) = 1 om är sant, och 0 annars.

Eftersom en koincidensmatris tabellerar alla parbara värden och dess innehåll summa till det totala n , när fyra eller fler kodare är inblandade, kan o ck vara bråk.

Matrisen av förväntade sammanträffanden innehåller frekvenser:

som summerar till samma n c , n k och n som o ck . I termer av dessa tillfälligheter blir Krippendorffs alfa :

Skillnadsfunktioner

Skillnadsfunktioner mellan värdena v och v' återspeglar de metriska egenskaperna ( måttnivåer ) för deras variabel.

I allmänhet:

Särskilt:

För nominell data ' tjänar som namn .
För ordinaldata ordinal , där v och v ′ är rangordningar.
För intervalldata intervall där v och v ′ är intervallskalvärden.
För kvotdata ratio , där v och v ′ är absoluta värden.
För polära data där v min och v max definierar ändpunkterna för den polära skalan.
För cirkulär data där sinusfunktionen uttrycks i grader och U är omkretsen eller värdeintervallet i en cirkel eller slinga innan de upprepas. För cirkulära mätvärden med lika intervall, ligger de minsta och största heltalsvärdena av denna metrik intill varandra och U = v störst v minsta + 1.

Betydelse

Eftersom matematiska påståenden om den statistiska fördelningen av alfa alltid bara är approximationer, är det att föredra att erhålla alfas fördelning genom bootstrapping . Alphas fördelning ger upphov till två index:

  • Konfidensintervallen för en beräknad alfa vid olika nivåer av statistisk signifikans
  • Sannolikheten för att alfa misslyckas med att uppnå ett valt minimum som krävs för att data ska anses vara tillräckligt tillförlitliga (ensidigt test). Detta index erkänner att nollhypotesen (om slumpmässig överensstämmelse) är så långt borta från intervallet av relevanta alfakoefficienter att dess förkastande inte skulle betyda mycket om hur tillförlitlig given data är. För att bedömas tillförlitliga får data inte avvika avsevärt från perfekt överensstämmelse.

Den lägsta acceptabla alfakoefficienten bör väljas i enlighet med vikten av de slutsatser som ska dras från ofullständiga data. När kostnaderna för felaktiga slutsatser är höga minimialfanivån sättas högt. I avsaknad av kunskap om riskerna med att dra falska slutsatser från otillförlitliga data, förlitar sig samhällsvetare vanligen på data med tillförlitligheter α ≥ 0,800, överväger data med 0,800 > α ≥ 0,667 endast för att dra preliminära slutsatser och förkastar data vars överensstämmelse mäter α < 0,667.

Ett beräkningsexempel

Låt den kanoniska formen av tillförlitlighetsdata vara en 3-kodare-för-15-enhetsmatris med 45 celler:

Enheter u: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Kodare A * * * * * 3 4 1 2 1 1 3 3 * 3
Kodare B 1 * 2 1 3 3 4 3 * * * * * * *
Kodare C * * 2 1 3 4 4 * 2 1 1 3 3 * 4

Anta att "*" indikerar en standardkategori som "kan inte koda", "inget svar" eller "saknar en observation." Sedan ger * ingen information om tillförlitligheten av data i de fyra värdena som är viktiga. Observera att enhet 2 och 14 inte innehåller någon information och enhet 1 bara innehåller ett värde, som inte är parbart inom den enheten. Dessa tillförlitlighetsdata består således inte av mN = 45 utan av n = 26 parbara värden, inte i N = 15 utan av 12 multipliceringskodade enheter.

Sammanfallsmatrisen för dessa data skulle konstrueras enligt följande:

o 11 = {in u =4}: {in u =10}: {in u =11}:
o 13 = {in u =8 }: o 31
o 22 = {in u =3}: {in u =9}:
o 33 = {in u = 5}: {in u =6}: {in u =12}: in u =13}:
o 34 = {in u =6}: {in u = 15}: o 43
o 44 = {in u =7}:
Värden v eller v ′: 1 2 3 4 n v
Värde 1 6 1 7
Värde 2 4 4
Värde 3 1 7 2 10
Värde 4 2 3 5
Frekvens n v' 7 4 10 5 26

När det gäller posterna i denna tillfällighetsmatris kan Krippendorffs alfa beräknas från:

För enkelhetens skull, eftersom produkter med och , endast posterna i en av de off-diagonala trianglarna i koincidensmatrisen listas i följande:

Med tanke på att alla när för nominella data ger uttrycket ovan:

Med för intervalldata ger uttrycket ovan:

Här, eftersom oenighet råkar förekomma till stor del mellan närliggande värden, visualiserat genom att förekomma närmare diagonalen av koincidensmatrisen, ett villkor som tar hänsyn till men inte gör det. När de observerade frekvenserna o v v är i medeltal proportionella mot de förväntade frekvenserna e v ≠ v' , .

Att jämföra alfakoefficienter över olika mätvärden kan ge ledtrådar till hur kodare begreppsmässigt mäter en variabel.

Alphas omfamning av annan statistik

Krippendorffs alfa ger flera känd statistik under ett gemensamt paraply, var och en av dem har sina egna begränsningar men inga ytterligare dygder.

  • Scotts pi är en överensstämmelsekoefficient för nominella data och två kodare.
    När data är nominella reduceras alfa till en form som liknar Scotts pi :
    Scotts observerade andel av överensstämmelse visas i alfas täljare, exakt. Scotts förväntade andel av överensstämmelse, approximeras asymptotiskt av när urvalsstorleken n är stor, lika med oändlig. Det följer att Scotts pi är det speciella fallet av alfa där två kodare genererar ett mycket stort urval av nominella data. För finita urvalsstorlekar: . Tydligen .
  • Fleiss' kappa är en överensstämmelsekoefficient för nominella data med mycket stora urvalsstorlekar där en uppsättning kodare har tilldelat exakt m etiketter till alla N enheter utan undantag (men observera att det kan finnas fler än m kodare, och endast en delmängdsetikett vardera exempel). Fleiss påstod sig ha utökat Cohens kappa till tre eller fler bedömare eller kodare, men generaliserade Scotts pi istället. Denna förvirring återspeglas i Fleiss val av dess namn, som har erkänts genom att döpa om det till K :
    När urvalsstorlekarna är ändliga, kan K ses begå inkonsekvensen av att erhålla andelen observerade överensstämmelser genom att räkna matchningar inom m ( m − 1) möjliga värdepar inom u , korrekt exklusive värden parade med sig själva, medan proportionen erhålls genom att räkna matchningar inom alla ( mN ) 2 = n 2 möjliga värdepar, effektivt inklusive värden parade med dem själva. Det är den senare som introducerar en bias i koefficienten. Men precis som för pi , när urvalsstorlekarna blir mycket stora försvinner denna bias och proportionen i nominellt α ovan approximerar asymptotiskt i K . Icke desto mindre skär Fleiss kappa , eller snarare K , med alfa i den speciella situationen där ett fast antal m kodare kodar alla N enheter (inga data saknas), med hjälp av nominella kategorier, och urvalsstorleken n = mN är mycket stor, teoretiskt oändlig.
  • Spearmans rangkorrelationskoefficient rho mäter överensstämmelsen mellan två kodares rangordning av samma uppsättning N objekt. I sin ursprungliga form:
    där är summan av N skillnader mellan en kodares rang c och den andra kodarens rang k för samma objekt u . Medan alfa står för bundna rankningar när det gäller deras frekvenser för alla kodare, ger rho ett genomsnitt av dem i varje enskild kodares instans. I avsaknad av kopplingar, s täljare och s nämnare , där n = 2 N , som blir när urvalsstorlekarna blir stora. Så, Spearmans rho är det speciella fallet av alfa där två kodare rangordnar en mycket stor uppsättning enheter. Återigen, och .
  • Pearsons intraklasskorrelationskoefficient . r ii är en överensstämmelsekoefficient för intervalldata, två kodare och mycket stora urvalsstorlekar För att få det var Pearsons ursprungliga förslag att skriva in de observerade värdeparen två gånger i en tabell, en gång som c k och en gång som k c , på vilken den traditionella Pearson-produkt-moment-korrelationskoefficienten sedan tillämpas. Genom att mata in värdepar två gånger blir den resulterande tabellen en koincidensmatris utan referens till de två kodarna, innehåller n = 2 N värden och är symmetrisk runt diagonalen, dvs den gemensamma linjära regressionslinjen tvingas in i en 45° linje, och hänvisningar till kodare elimineras. Därför är Pearsons intraklasskorrelationskoefficient det speciella fallet av intervall alfa för två kodare och stora urvalsstorlekar, och .
  • Slutligen är meningsskiljaktigheterna i intervallen alfa , D u , D o och D e korrekta sampelvarianser . Av detta följer att tillförlitligheten som intervallet alfa bedömer överensstämmer med alla variansbaserade analytiska tekniker, såsom variansanalys . Dessutom, genom att införliva skillnadsfunktioner inte bara för intervalldata utan också för nominella, ordinala, förhållande, polära och cirkulära data, alfa begreppet varians till mått som klassiska analytiska tekniker sällan adresserar.

Krippendorffs alfa är mer generell än någon av dessa speciella ändamålskoefficienter. Den anpassar sig till varierande urvalsstorlekar och ger jämförelser mellan en mängd olika tillförlitlighetsdata, som oftast ignoreras av de välbekanta måtten.

Koefficienter som är inkompatibla med alfa och kodningens tillförlitlighet

Semantiskt är tillförlitlighet förmågan att förlita sig på något, här på kodad data för efterföljande analys. När ett tillräckligt stort antal kodare är helt överens om vad de har läst eller observerat, är det ett säkert kort att förlita sig på deras beskrivningar. Bedömningar av detta slag beror på antalet kodare som duplicerar processen och hur representativa de kodade enheterna är för populationen av intresse. Tolkningsproblem uppstår när överensstämmelse är mindre än perfekt, särskilt när tillförlitlighet saknas.

  • Korrelations- och associationskoefficienter. Pearsons produkt-moment korrelationskoefficient r ij mäter till exempel avvikelser från en linjär regressionslinje mellan koordinaterna för i och j . Om inte den regressionslinjen råkar vara exakt 45° eller centrerad, r ij inte överensstämmelse. På samma sätt, medan perfekt överensstämmelse mellan kodare också betyder perfekt association, associationsstatistik alla ovanstående slumpmässiga mönster av samband mellan variabler. De skiljer inte avtal från andra föreningar och är därför olämpliga som tillförlitlighetsmått.
  • Koefficienter som mäter i vilken grad kodare är statistiskt beroende av varandra. När tillförlitligheten hos kodade data är i fråga, kan kodarnas individualitet inte ha någon plats i den. Kodare måste behandlas som utbytbara. Alpha , Scotts pi och Pearsons ursprungliga intraklasskorrelation åstadkommer detta genom att vara definierbara som en funktion av tillfälligheter, inte bara av oförutsedda händelser. Till skillnad från de mer välkända kontingensmatriserna, som tabellerar N par av värden och upprätthåller referens till de två kodarna, tabellerar koincidensmatriser de n parbara värdena som används vid kodning, oavsett vem som bidrog med dem, och behandlar i själva verket kodare som utbytbara. Cohens kappa definierar däremot förväntad överensstämmelse i termer av oförutsedda händelser, som den överenskommelse som skulle förväntas om kodare var statistiskt oberoende av varandra. Cohens uppfattning om slumpen misslyckas med att inkludera oenighet mellan kodarnas individuella förkärlek för särskilda kategorier, straffar kodare som är överens om deras användning av kategorier och belönar de som inte håller med högre kappa -värden . Detta är orsaken till andra uppmärksammade konstigheter av kappa . Det statistiska oberoendet för kodare är endast marginellt relaterat till det statistiska oberoendet för de kodade enheterna och de värden som tilldelats dem. Cohens kappa , genom att ignorera avgörande meningsskiljaktigheter, kan bli bedrägligt stor när tillförlitligheten av kodningsdata ska bedömas.
  • Koefficienter som mäter konsistensen av kodarbedömningar. I den psykometriska litteraturen tenderar tillförlitlighet att definieras som den konsistens med vilken flera tester utförs när de tillämpas på en gemensam uppsättning individuella egenskaper. Cronbachs alfa, till exempel, är utformad för att bedöma i vilken grad flera tester ger korrelerade resultat. Perfekt överensstämmelse är förstås det ideala, men Cronbachs alfa är högt även när testresultaten varierar systematiskt. Konsekvens i kodarnas bedömningar ger inte de nödvändiga garantierna för datatillförlitlighet. Varje avvikelse från identiska bedömningar – systematiska eller slumpmässiga – måste räknas som oenighet och minska den uppmätta tillförlitligheten. Cronbachs alfa är inte utformad för att svara på absoluta skillnader.
  • Koefficienter med baslinjer (förhållanden under vilka de mäter 0) som inte kan tolkas i termer av tillförlitlighet, dvs. har inget dedikerat värde för att indikera när enheterna och de värden som tilldelats dem är statistiskt orelaterade. Enkel %-enighet sträcker sig från 0 = extrem oenighet till 100 = perfekt överensstämmelse med slumpen som inte har något definitivt värde. Som redan nämnts Cohens kappa i denna kategori genom att definiera frånvaron av tillförlitlighet som det statistiska oberoendet mellan två individuella kodare. Baslinjen för Bennett, Alpert och Goldsteins S definieras i termer av antalet tillgängliga värden för kodning, vilket har lite att göra med hur värden faktiskt används. Goodman och Kruskals lambda r definieras för att variera mellan –1 och +1, vilket lämnar 0 utan en särskild tillförlitlighetstolkning. Lins reproducerbarhet eller konkordanskoefficient rc Cb tar Pearsons produktmomentkorrelation r ij som ett mått på precision och lägger till det ett mått . noggrannhet, till synes för att korrigera för r ij ' s ovan nämnda otillräcklighet Det varierar mellan –1 och +1 och tillförlitlighetstolkningen av 0 är osäker. Det finns fler så kallade reliabilitetsmått vars reliabilitetstolkningar blir tveksamma så fort de avviker från perfekt överensstämmelse.

Att namnge en statistik som en överensstämmelse, reproducerbarhet eller tillförlitlighet gör den inte till ett giltigt index för om man kan förlita sig på kodad data i efterföljande beslut. Dess matematiska struktur måste passa processen att koda enheter i ett system av analyserbara termer.

Anteckningar

  1. ^ Krippendorff, K. (2013) s. 221–250 beskriver alfas matematik och dess användning i innehållsanalys sedan 1969.
  2. ^ Hayes, AF & Krippendorff, K. (2007) beskriver och tillhandahåller SPSS- och SAS-makron för beräkning av alfa , dess konfidensgränser och sannolikheten att misslyckas med att nå ett valt minimum.
  3. ^ Referensmanual för irr-paketet som innehåller kripp.alpha()-funktionen för det plattformsoberoende statistikpaketet R
  4. ^ Alpha-resurssidan.
  5. ^ Matlab-kod för att beräkna Krippendorffs alfa.
  6. ^ Python-kod för att beräkna Krippendorffs alfa.
  7. ^ Python-kod för Krippendorffs alfasnabba beräkning.
  8. ^ Flera användarskrivna tillägg till den kommersiella programvaran Stata är tillgängliga.
  9. ^ Open Source Python-implementering som stöder Dataframes
  10. ^ Ära, David. "Förstå Krippendorffs alfa" (PDF) .
  11. ^ Computing Krippendorff's Alpha Reliability” http://repository.upenn.edu/asc_papers/43/
  12. ^ Krippendorff, K. (2004) s. 237–238
  13. ^ Hayes, AF & Krippendorff, K. (2007) Svarar på uppmaningen om ett standardtillförlitlighetsmått för kodning av data [ 1]
  14. ^ Krippendorff, K. (2004) s. 241–243
  15. ^ Scott, WA (1955)
  16. ^ Fleiss, JL (1971)
  17. ^ Cohen, J. (1960)
  18. ^ Siegel, S. & Castellan, NJ (1988), s. 284–291.
  19. ^ Spearman, CE (1904)
  20. ^ Pearson, K. (1901), Tildesley, ML (1921)
  21. ^ Krippendorff, K. (1970)
  22. ^ Cohen, J. (1960)
  23. ^ Krippendorff, K. (1978) tog upp denna fråga med Joseph Fleiss
  24. ^ Zwick, R. (1988), Brennan, RL & Prediger, DJ (1981), Krippendorff (1978, 2004).
  25. ^ Nunnally, JC & Bernstein, IH (1994)
  26. ^ Cronbach, LJ (1951)
  27. ^ Bennett, EM, Alpert, R. & Goldstein, AC (1954)
  28. ^ Goodman, LA & Kruskal, WH (1954) sid. 758
  29. ^ Lin, LI (1989)
  • K. Krippendorff, 2013, Content Analysis: An Introduction to Its Methodology, 3:e upplagan. Thousand Oaks, CA, USA: Sage, PP. 221–250
  • Bennett, Edward M., Alpert, R. & Goldstein, AC (1954). Kommunikation genom begränsade svarsförhör. Public Opinion Quarterly, 18 , 303–308.
  • Brennan, Robert L. & Prediger, Dale J. (1981). Koefficient kappa: Vissa användningsområden, missbruk och alternativ. Educational and Psychological Measurement, 41 , 687–699.
  • Cohen, Jacob (1960). En överensstämmelsekoefficient för nominella skalor. Pedagogisk och psykologisk mätning, 20 (1), 37–46.
  • Cronbach, Lee, J. (1951). Koefficient alfa och testernas interna struktur. Psychometrika, 16 (3), 297–334.
  • Fleiss, Joseph L. (1971). Mätning av nominell skalöverensstämmelse mellan många bedömare. Psychological Bulletin, 76 , 378–382.
  • Goodman, Leo A. & Kruskal, William H. (1954). Sambandsmått för korsklassificeringar. Journal of the American Statistical Association, 49 , 732–764.
  • Hayes, Andrew F. & Krippendorff, Klaus (2007). Besvara uppmaningen om ett standardtillförlitlighetsmått för kodning av data. Kommunikationsmetoder och åtgärder, 1 , 77–89.
  • Krippendorff, Klaus (2013). Innehållsanalys: En introduktion till dess metodik, 3:e upplagan . Thousand Oaks, CA: Sage.
  • Krippendorff, Klaus (1978). Tillförlitlighet för binära attributdata. Biometrics, 34 (1), 142–144.
  • Krippendorff, Klaus (1970). Uppskattning av tillförlitlighet, systematiska fel och slumpmässiga fel för intervalldata. Pedagogisk och psykologisk mätning, 30 (1), 61–70.
  • Lin, Lawrence I. (1989). En konkordanskorrelationskoefficient för att utvärdera reproducerbarhet. Biometrics, 45 , 255–268.
  • Nunnally, Jum C. & Bernstein, Ira H. (1994). Psychometric Theory, 3:e uppl . New York: McGraw-Hill.
  • Pearson, Karl, et al. (1901). Matematiska bidrag till evolutionsteorin. IX: Om principen om homotypos och dess relation till ärftlighet, till individens föränderlighet och till rasens. Del I: Homotypos i grönsaksriket. Philosophical Transactions of the Royal Society (London), Series A, 197 , 285–379.
  • Scott, William A. (1955). Tillförlitlighet för innehållsanalys: Fallet med kodning i nominell skala. Public Opinion Quarterly, 19 , 321–325.
  • Siegel, Sydney & Castella, N. John (1988). Nonparametric Statistics for the Behavioral Sciences, 2nd ed . Boston: McGraw-Hill.
  • Tildesley, ML (1921). En första studie av Burmes skalle. Biometrica, 13 , 176–267.
  • Spearman, Charles E. (1904). Beviset och mätningen av samband mellan två saker. American Journal of Psychology, 15 , 72–101.
  • Zwick, Rebecca (1988). En annan titt på interter-avtal. Psychological Bulletin, 103 (3), 347–387.

externa länkar