Variation av information
I sannolikhetsteori och informationsteori är variationen av information eller delad informationsavstånd ett mått på avståndet mellan två klustringar ( partitioner av element) . Det är nära besläktat med ömsesidig information ; Det är faktiskt ett enkelt linjärt uttryck som involverar den ömsesidiga informationen. Till skillnad från den ömsesidiga informationen är dock informationens variation ett sant mått , eftersom det lyder triangelojämlikheten .
Definition
Antag att vi har två partitioner och av en uppsättning i disjunkta delmängder , nämligen och .
Låta:
- och
Då är variationen av information mellan de två partitionerna:
- .
Detta är ekvivalent med det delade informationsavståndet mellan de slumpmässiga variablerna i och j med avseende på det enhetliga sannolikhetsmåttet på definierad av för .
Explicit informationsinnehåll
Vi kan skriva om denna definition i termer som uttryckligen belyser informationsinnehållet i detta mått.
Mängden av alla partitioner i en uppsättning bildar ett kompakt gitter där den partiella ordningen inducerar två operationer, meet och join , där maximalt är partitionen med endast ett block, dvs alla element grupperade tillsammans, och minimum är , partitionen består av alla element som singlar. Mötet mellan två partitioner och är lätt att förstå eftersom den partition som bildas av alla parskärningar av ett block av, av och en, , av . Det följer sedan att och .
Låt oss definiera entropin för en partition som
- ,
där . Tydligen är och . Entropin för en partition är en monoton funktion på partitionernas gitter i den meningen att .
ges VI-avståndet mellan och
- .
Skillnaden en pseudo-metrisk som betyder inte nödvändigtvis att . Från definitionen av är det .
Om vi i Hasse-diagrammet ritar en kant från varje partition till maximalt och tilldelar den en vikt lika med VI-avståndet mellan den givna partitionen och , kan vi tolka VI-avståndet som i princip ett genomsnitt av skillnader mellan kantvikter till det maximala
- .
För enligt definitionen ovan gäller att den gemensamma informationen för två partitioner sammanfaller med entropin för mötet
och vi har också att sammanfaller med den villkorliga entropin för mötet (skärningspunkten) relativt .
Identiteter
Variationen av information tillfredsställer
- ,
där är entropin för , och är ömsesidig information mellan och med avseende på det enhetliga sannolikhetsmåttet på . Detta kan skrivas om som
- ,
där är den gemensamma entropin för och , eller
- ,
där och är de respektive villkorliga entropierna .
Variationen av information kan också begränsas, antingen i termer av antalet element:
- ,
Eller med avseende på ett maximalt antal kluster, :
Vidare läsning
- Arabie, P.; Boorman, SA (1973). "Multidimensionell skalning av mått på avstånd mellan partitioner". Journal of Mathematical Psychology . 10 (2): 148–203. doi : 10.1016/0022-2496(73)90012-6 .
- Meila, Marina (2003). "Jämföra kluster genom variationen av information". Inlärningsteori och kärnmaskiner . Föreläsningsanteckningar i datavetenskap. 2777 : 173–187. doi : 10.1007/978-3-540-45167-9_14 . ISBN 978-3-540-40720-1 .
- Meila, M. (2007). "Jämföra klustringar - ett informationsbaserat avstånd" . Journal of Multivariate Analysis . 98 (5): 873–895. doi : 10.1016/j.jmva.2006.11.013 .
- Kingsford, Carl (2009). "Anteckningar om informationsteori" (PDF) . Hämtad 22 september 2009 .
- Kraskov, Alexander; Harald Stögbauer; Ralph G. Andrzejak; Peter Grassberger (2003). "Hierarkisk klustring baserad på ömsesidig information". arXiv : q-bio/0311039 .
externa länkar
- Partanalyzer inkluderar en C++-implementering av VI och andra mätvärden och index för att analysera partitioner och klustringar
- C++ implementering med MATLAB mex-filer