Justerad ömsesidig information
Inom sannolikhetsteori och informationsteori , justerad ömsesidig information , kan en variation av ömsesidig information användas för att jämföra klustringar . Det korrigerar effekten av överensstämmelse enbart på grund av slumpen mellan klustringar, på samma sätt som det justerade randindexet korrigerar Randindexet . Det är nära relaterat till variation av information : när en liknande justering görs av VI-indexet blir det ekvivalent med AMI. Det justerade måttet är dock inte längre metriskt.
Ömsesidig information om två partitioner
Givet en uppsättning S av N element överväg två partitioner av S , nämligen med R -kluster och med C- kluster. Det antas här att partitionerna är så kallade hårda kluster; partitionerna är parvis osammanhängande:
för alla , och fyll i:
Den ömsesidiga informationen om klusteröverlappning mellan U och V kan sammanfattas i form av en R x C -kontingenstabell , där anger antalet objekt som är gemensamma för kluster och . Det är,
Antag att ett objekt plockas slumpmässigt från S ; sannolikheten att objektet hamnar i kluster är:
Entropin som är associerad med partitioneringen U är:
H(U) är icke-negativ och tar endast värdet 0 när det inte finns någon osäkerhet som bestämmer ett objekts klustermedlemskap, dvs när det bara finns ett kluster. På liknande sätt kan entropin för klustringen V beräknas som:
där . Den ömsesidiga informationen (MI) mellan två partitioner:
där anger sannolikheten att en punkt tillhör både klustret i U och kluster i V :
MI är en icke-negativ storhet som är övre gränsad av entropierna H ( U ) och H ( V ). Den kvantifierar informationen som delas av de två klustringarna och kan därför användas som ett klustringslikhetsmått .
Justering för slumpen
Liksom Rand-indexet antar inte baslinjevärdet för ömsesidig information mellan två slumpmässiga kluster ett konstant värde och tenderar att vara större när de två partitionerna har ett större antal kluster (med ett fast antal uppsättningselement N ) . Genom att anta en hypergeometrisk modell för slumpmässighet kan det visas att den förväntade ömsesidiga informationen mellan två slumpmässiga klustringar är:
där anger . Variablerna och är partiella summor av beredskapstabellen ; det är,
och
Det justerade måttet för den ömsesidiga informationen kan sedan definieras som:
- .
AMI tar värdet 1 när de två partitionerna är identiska och 0 när MI mellan två partitioner är lika med det förväntade värdet på grund av enbart slumpen.
- ^ a b c Vinh, NX; Epps, J.; Bailey, J. (2009). "Informationsteoretiska mått för jämförelse av klustringar". Handlingar från den 26:e årliga internationella konferensen om maskininlärning - ICML '09 . sid. 1. doi : 10.1145/1553374.1553511 . ISBN 9781605585161 .
- ^ Meila, M. (2007). "Jämföra klustringar - ett informationsbaserat avstånd" . Journal of Multivariate Analysis . 98 (5): 873–895. doi : 10.1016/j.jmva.2006.11.013 .
- ^ Vinh, Nguyen Xuan; Epps, Julien; Bailey, James (2010), "Information Theoretic Measures for Clusterings Comparison: Variants, Properties, Normalization and Correction for Chance" (PDF) , The Journal of Machine Learning Research , 11 (okt): 2837–54
externa länkar
- Matlab-kod för att beräkna den justerade ömsesidiga informationen
- R-kod för snabb och parallell beräkning av justerad ömsesidig information
- Python-kod för att beräkna den justerade ömsesidiga informationen