Osäkerhetskoefficient

Inom statistik är osäkerhetskoefficienten , även kallad kompetens , entropikoefficient eller Theils U , ett mått på nominell association . Det introducerades först av Henri Theil [ citat behövs ] och är baserat på begreppet informationsentropi .

Definition

Anta att vi har prover av två diskreta slumpvariabler, X och Y . Genom att konstruera den gemensamma fördelningen, P X,Y ( x , y ) , från vilken vi kan beräkna de villkorliga fördelningarna , , P X | Y ( x | y ) = P X, Y ( x , y )/ PY y ( ) och PY | X ( y | x ) = P X Y ( x , y )/ P X ( x ) , och genom att beräkna de olika entropierna kan vi bestämma graden av association mellan de två variablerna.

Entropin för en enkel fördelning ges som:

medan den villkorliga entropin ges som:

Osäkerhetskoefficienten eller kompetensen definieras som:

och berättar: givet Y , vilken bråkdel av bitarna av X kan vi förutsäga? I det här fallet kan vi tänka oss att X innehåller den totala informationen och att Y tillåter en att förutsäga en del av sådan information.

Ovanstående uttryck klargör att osäkerhetskoefficienten är en normaliserad ömsesidig information I(X;Y) . Speciellt varierar osäkerhetskoefficienten i [0, 1] eftersom I(X;Y) < H(X) och både I(X,Y) och H(X) är positiva eller noll.

Observera att värdet på U (men inte H !) är oberoende av basen för loggen eftersom alla logaritmer är proportionella.

Osäkerhetskoefficienten är användbar för att mäta giltigheten av en statistisk klassificeringsalgoritm och har fördelen framför enklare noggrannhetsmått som precision och återkallelse genom att den inte påverkas av de relativa fraktionerna av de olika klasserna, dvs P ( x ). Den har också den unika egenskapen att den inte kommer att straffa en algoritm för att förutsäga fel klasser, så länge den gör det konsekvent (dvs. den ordnar bara om klasserna). Detta är användbart för att utvärdera klusteralgoritmer eftersom klusteretiketter vanligtvis inte har någon speciell ordning.

Variationer

Osäkerhetskoefficienten är inte symmetrisk med avseende på rollerna X och Y . Rollerna kan vändas om och ett symmetriskt mått definieras således som ett viktat medelvärde mellan de två:

Även om den normalt tillämpas på diskreta variabler, kan osäkerhetskoefficienten utökas till kontinuerliga variabler med hjälp av densitetsuppskattning . [ citat behövs ]

Se även

  1. ^ a b c Claude E. Shannon; Warren Weaver (1963). Den matematiska kommunikationsteorin . University of Illinois Press.
  2. ^ a b William H. Press; Brian P. Flannery; Saul A. Teukolsky; William T. Vetterling (1992). "14.7.4". Numeriska recept: The Art of Scientific Computing (3:e upplagan). Cambridge University Press. sid. 761.
  3. ^ a b Vit, Jim; Steinold, Sam; Fournelle, Connie. "Performance Metrics for Group-Detection Algoritms" (PDF) . Gränssnitt 2004. {{ citera journal }} : Citera journal kräver |journal= ( hjälp )
  4. ^   Peter, Mills (2011). "Effektiv statistisk klassificering av satellitmätningar" (PDF) . International Journal of Remote Sensing . 32 (21): 6109–6132. arXiv : 1202.2194 . Bibcode : 2011IJRS...32.6109M . doi : 10.1080/01431161.2010.507795 . S2CID 88518570 . Arkiverad från originalet (PDF) 2012-04-26.

externa länkar

  • libagf Innehåller programvara för beräkning av osäkerhetskoefficienter.