Variation av information

I sannolikhetsteori och informationsteori är variationen av information eller delad informationsavstånd ett mått på avståndet mellan två klustringar ( partitioner av element) . Det är nära besläktat med ömsesidig information ; Det är faktiskt ett enkelt linjärt uttryck som involverar den ömsesidiga informationen. Till skillnad från den ömsesidiga informationen är dock informationens variation ett sant mått , eftersom det lyder triangelojämlikheten .

Informationsdiagram som illustrerar sambandet mellan informationsentropier , ömsesidig information och variation av information.

Definition

Antag att vi har två partitioner och av en uppsättning i disjunkta delmängder , nämligen och .

Låta:

och

Då är variationen av information mellan de två partitionerna:

.

Detta är ekvivalent med det delade informationsavståndet mellan de slumpmässiga variablerna i och j med avseende på det enhetliga sannolikhetsmåttet på definierad av för .

Explicit informationsinnehåll

Vi kan skriva om denna definition i termer som uttryckligen belyser informationsinnehållet i detta mått.

Mängden av alla partitioner i en uppsättning bildar ett kompakt gitter där den partiella ordningen inducerar två operationer, meet och join , där maximalt är partitionen med endast ett block, dvs alla element grupperade tillsammans, och minimum är , partitionen består av alla element som singlar. Mötet mellan två partitioner och är lätt att förstå eftersom den partition som bildas av alla parskärningar av ett block av, av och en, , av . Det följer sedan att och .

Låt oss definiera entropin för en partition som

,

där . Tydligen är och . Entropin för en partition är en monoton funktion på partitionernas gitter i den meningen att .

ges VI-avståndet mellan och

.

Skillnaden en pseudo-metrisk som betyder inte nödvändigtvis att . Från definitionen av är det .

Om vi ​​i Hasse-diagrammet ritar en kant från varje partition till maximalt och tilldelar den en vikt lika med VI-avståndet mellan den givna partitionen och , kan vi tolka VI-avståndet som i princip ett genomsnitt av skillnader mellan kantvikter till det maximala

.

För enligt definitionen ovan gäller att den gemensamma informationen för två partitioner sammanfaller med entropin för mötet

och vi har också att sammanfaller med den villkorliga entropin för mötet (skärningspunkten) relativt .

Identiteter

Variationen av information tillfredsställer

,

där är entropin för , och är ömsesidig information mellan och med avseende på det enhetliga sannolikhetsmåttet på . Detta kan skrivas om som

,

där är den gemensamma entropin för och , eller

,

där och är de respektive villkorliga entropierna .

Variationen av information kan också begränsas, antingen i termer av antalet element:

,

Eller med avseende på ett maximalt antal kluster, :

Vidare läsning

externa länkar