Ömsesidig information

Venndiagram som visar additiva och subtraktiva samband mellan olika informationsmått associerade med korrelerade variabler och . Arean som endera cirklarna innehåller är den gemensamma entropin . Cirkeln till vänster (röd och violett) är den individuella entropin där den röda är den villkorliga entropin . Cirkeln till höger (blå och violett) är , där den blå är . Den violetta är den ömsesidiga informationen .

Inom sannolikhetsteori och informationsteori är den ömsesidiga informationen ( MI ) för två slumpvariabler ett mått på det ömsesidiga beroendet mellan de två variablerna. Mer specifikt kvantifierar den " mängden information " (i enheter som shannoner ( bitar ), nats eller hartleys ) som erhålls om en slumpvariabel genom att observera den andra slumpvariabeln. Begreppet ömsesidig information är intimt kopplat till entropi av en slumpvariabel, en grundläggande föreställning inom informationsteorin som kvantifierar den förväntade "mängden information" som hålls i en slumpvariabel.

Inte begränsat till verkligt värderade slumpvariabler och linjärt beroende som korrelationskoefficienten , MI är mer generell och bestämmer hur olika den gemensamma fördelningen av paret är från produkten av marginalfördelningar av och . MI är det förväntade värdet av den punktvisa ömsesidiga informationen (PMI).

Kvantiteten definierades och analyserades av Claude Shannon i hans landmärke " A Mathematical Theory of Communication ", även om han inte kallade det "ömsesidig information". Denna term myntades senare av Robert Fano . Ömsesidig information är också känd som informationsvinst .

Definition

Låt vara ett par slumpvariabler med värden över mellanrummet . Om deras gemensamma fördelning är och marginalfördelningarna är och , den ömsesidiga informationen definieras som

där är Kullback–Leibler-divergensen .

Lägg märke till, enligt egenskapen för Kullback–Leibler-divergensen , att är lika med noll precis när den gemensamma fördelningen sammanfaller med produkten av marginalerna, dvs när och är oberoende (och följaktligen säger ). är icke-negativ, det är ett mått på priset för kodning som ett par oberoende slumpmässiga variabler när de i verkligheten inte är det.

Om den naturliga logaritmen används är enheten för ömsesidig information nat . Om logbasen 2 används är enheten för ömsesidig information shannon , även känd som biten. Om logbasen 10 används är enheten för ömsesidig information hartley , även känd som ban eller dit.

När det gäller PMF för diskreta distributioner

Den ömsesidiga informationen för två gemensamt diskreta slumpvariabler och beräknas som en dubbelsumma:

 

 

 

 

()

där är den gemensamma sannolikhetsmassfunktionen för \ X och och och är de marginella sannolikhetsmassfunktionerna för respektive .

När det gäller PDF-filer för kontinuerliga distributioner

I fallet med gemensamt kontinuerliga stokastiska variabler ersätts dubbelsumman med en dubbelintegral :

 

 

 

 

()

där är nu den gemensamma sannolikhetstäthetsfunktionen för X och och och är de marginella sannolikhetstäthetsfunktionerna för respektive .

Motivering

Intuitivt mäter ömsesidig information informationen som och delar: Den mäter hur mycket kunskap om en av dessa variabler minskar osäkerheten om den andra. Till exempel, om och är oberoende, så ger att veta ingen information om och vice versa, så deras ömsesidiga information är noll . I den andra ytterligheten, om är en deterministisk funktion av och är en deterministisk funktion av då all information som förmedlas av delas med : att veta bestämmer värdet på och vice versa. Som ett resultat är den ömsesidiga informationen i detta fall densamma som osäkerheten i (eller ), nämligen entropin för (eller ). Dessutom är denna ömsesidiga information densamma som entropin för och som entropin för . (Ett mycket speciellt fall av detta är när och är samma slumpvariabel.)

Ömsesidig information är ett mått på det inneboende beroendet uttryckt i den gemensamma fördelningen av och i förhållande till marginalfördelningen av och under antagandet av självständighet. Ömsesidig information mäter därför beroende i följande mening: om och endast om och är oberoende slumpvariabler. Detta är lätt att se i en riktning: om och är oberoende, då :

Dessutom är ömsesidig information icke-negativ (dvs. se nedan) och symmetrisk (dvs. se nedan).

Egenskaper

Icke-negativitet

Med hjälp av Jensens ojämlikhet på definitionen av ömsesidig information kan vi visa att är icke-negativ, dvs.

Symmetri

Beviset ges med tanke på sambandet med entropi, som visas nedan.

Relation till betingad och ledentropi

Ömsesidig information kan uttryckas på samma sätt som:

där och \ är marginalentropierna , och är de villkorliga entropierna och är den gemensamma entropin för och .

Lägg märke till analogin till föreningen, skillnaden och skärningspunkten mellan två uppsättningar: i detta avseende framgår alla formlerna ovan från Venn-diagrammet som rapporterades i början av artikeln.

När det gäller en kommunikationskanal där utgången är en brusig version av ingången , är dessa relationer sammanfattade i figuren:

Sambanden mellan informationsteoretiska storheter

Eftersom är icke-negativ, följaktligen . Här ger vi den detaljerade deduktionen av för fallet med gemensamt diskreta slumpvariabler:

Bevisen för de andra identiteterna ovan är liknande. Beviset för det allmänna fallet (inte bara diskret) är liknande, med integraler som ersätter summor.

Intuitivt, om entropin betraktas som ett mått på osäkerhet om en slumpvariabel, då är ett mått på vad inte säger om . Detta är "mängden osäkerhet som återstår kring efter att är känd", och därmed kan höger sida av den andra av dessa likheter läsas som "mängden osäkerhet i , minus mängden osäkerhet i som finns kvar efter att är känd", vilket motsvarar "mängden osäkerhet i som tas bort genom att veta ". Detta bekräftar den intuitiva innebörden av ömsesidig information som mängden information (det vill säga minskning av osäkerhet) som att känna till endera variabeln ger om den andra.

Observera att i det diskreta fallet och därför . Alltså och man kan formulera grundprincipen att en variabel innehåller minst lika mycket information om sig själv som någon annan variabel kan ge.

Relation till Kullback–Leibler divergens

För gemensamt diskreta eller gemensamt kontinuerliga par är ömsesidig information Kullback–Leibler-avvikelsen från produkten av marginalfördelningarna , , av den gemensamma fördelningen dvs.

Låt vidare vara den villkorliga massan eller densitetsfunktionen. Då har vi identiteten

Beviset för gemensamt diskreta slumpvariabler är följande:

På liknande sätt kan denna identitet fastställas för gemensamt kontinuerliga slumpvariabler.

Observera att Kullback–Leibler-divergensen här involverar enbart integration över värdena för slumpvariabeln och uttrycket anger fortfarande en slumpvariabel eftersom är slumpmässig. Sålunda kan ömsesidig information också förstås som förväntan av Kullback–Leibler-divergensen av den univariata fördelningen av från den villkorliga fördelningen av givet : desto mer olika är fördelningarna och är i genomsnitt, desto större informationsvinst .

Bayesiansk uppskattning av ömsesidig information

Om prover från en gemensam distribution finns tillgängliga, kan en Bayesiansk metod användas för att uppskatta den ömsesidiga informationen om den fördelningen. Det första arbetet att göra detta, som också visade hur man gör Bayesiansk uppskattning av många andra informationsteoretiska egenskaper förutom ömsesidig information, var. Efterföljande forskare har omarbetat och utökat denna analys. Se för ett färskt papper baserat på en tidigare speciellt anpassad för uppskattning av ömsesidig information i sig. föreslogs nyligen en uppskattningsmetod som tar hänsyn till kontinuerliga och multivariata utdata,

Antaganden om oberoende

Kullback-Leibler-divergensformuleringen av den ömsesidiga informationen bygger på att man är intresserad av att jämföra med den fullständigt faktoriserade yttre produkten . I många problem, såsom icke-negativ matrisfaktorisering , är man intresserad av mindre extrema faktoriseringar; specifikt vill man jämföra med en låg-rankad matrisapproximation i någon okänd variabel ; det vill säga i vilken grad man kan ha

Alternativt kan man vara intresserad av att veta hur mycket mer information bär över sin faktorisering. I ett sådant fall ges den överskottsinformation som den fullständiga fördelningen bär över matrisfaktoriseringen av Kullback-Leibler-divergensen

Den konventionella definitionen av den ömsesidiga informationen återvinns i det extrema fallet att processen endast har ett värde för .

Variationer

Flera varianter av ömsesidig information har föreslagits för att passa olika behov. Bland dessa finns normaliserade varianter och generaliseringar till fler än två variabler.

Metrisk

Många applikationer kräver en metrisk , det vill säga ett avståndsmått mellan par av punkter. Kvantiteten

uppfyller egenskaperna hos en metrik ( triangelolikhet , icke-negativitet , ourskiljbarhet och symmetri). Detta avståndsmått är också känt som informationens variation .

Om är diskreta slumpvariabler är alla entropitermer icke-negativa, så och man kan definiera ett normaliserat avstånd

Måttet är ett universellt mått, eftersom om något annat avståndsmått placerar och i närheten, så kommer också att bedöma dem nära . [ tveksamt ]

Att plugga in definitionerna visar det

Detta är känt som Rajski-distansen. I en mängdteoretisk tolkning av information (se figuren för villkorlig entropi ), är detta i praktiken Jaccard-avståndet mellan och .

Till sist,

är också ett mått.

Villkorlig ömsesidig information

Ibland är det användbart att uttrycka den ömsesidiga informationen för två slumpvariabler som betingas av en tredje.

För gemensamt diskreta slumpvariabler tar detta formen

vilket kan förenklas som

För gemensamt kontinuerliga stokastiska variabler tar detta formen

vilket kan förenklas som

Konditionering av en tredje slumpvariabel kan antingen öka eller minska den ömsesidiga informationen, men det är alltid sant

för diskreta, gemensamt fördelade slumpvariabler . Detta resultat har använts som en grundläggande byggsten för att bevisa andra ojämlikheter i informationsteorin .

Interaktionsinformation

Flera generaliseringar av ömsesidig information till mer än två slumpvariabler har föreslagits, såsom total korrelation (eller multi-information) och dubbel total korrelation . Uttrycket och studiet av multivariat högre grad av ömsesidig information uppnåddes i två till synes oberoende verk: McGill (1954) som kallade dessa funktioner "interaktionsinformation" och Hu Kuo Ting (1962). Interaktionsinformation definieras för en variabel enligt följande:

och för

Vissa författare ändrar ordningen på termerna på höger sida av föregående ekvation, vilket ändrar tecknet när antalet slumpvariabler är udda. (Och i det här fallet blir uttrycket med en variabel det negativa av entropin.) Observera att

Multivariat statistiskt oberoende

De multivariata ömsesidiga informationsfunktionerna generaliserar det parvisa oberoendefallet som anger att om och endast om , till godtyckliga talrika variabler. n variabler är ömsesidigt oberoende om och endast om de ömsesidiga informationsfunktionerna försvinner med (sats 2). I denna mening användas som ett förfinat statistiskt oberoendekriterium.

Ansökningar

För 3 variabler, Brenner et al. tillämpade multivariat ömsesidig information på neural kodning och kallade dess negativitet "synergi" och Watkinson et al. tillämpade det på genetiskt uttryck. För godtyckliga k variabler, Tapia et al. tillämpade multivariat ömsesidig information på genuttryck. Det kan vara noll, positivt eller negativt. Positiviteten motsvarar relationer som generaliserar de parvisa korrelationerna, nullitet motsvarar en förfinad uppfattning om oberoende, och negativitet upptäcker högdimensionella "emergent" relationer och klusteriserade datapunkter).

Ett högdimensionellt generaliseringsschema som maximerar den ömsesidiga informationen mellan den gemensamma fördelningen och andra målvariabler har visat sig vara användbart vid val av egenskaper .

Ömsesidig information används också inom området för signalbehandling som ett mått på likheten mellan två signaler. Till exempel är FMI-måttet ett prestandamått för bildfusion som använder ömsesidig information för att mäta mängden information som den sammanslagna bilden innehåller om källbilderna. Matlab - koden för detta mått finns på. Ett pythonpaket för att beräkna all multivariat ömsesidig information, villkorlig ömsesidig information, gemensamma entropier, totala korrelationer, informationsavstånd i en datauppsättning med n variabler är tillgänglig.

Riktad information

Riktad information , mäter mängden information som flödar från processen till , där anger vektorn och betecknar . Termen riktad information myntades av James Massey och definieras som

.

Observera att om blir den riktade informationen den ömsesidiga informationen. Riktad information har många tillämpningar i problem där kausalitet spelar en viktig roll, såsom kanalkapacitet med återkoppling.

Normaliserade varianter

Normaliserade varianter av den ömsesidiga informationen tillhandahålls av koefficienterna för begränsning , osäkerhetskoefficient eller kompetens:

De två koefficienterna har ett värde inom [0, 1], men är inte nödvändigtvis lika. I : , vissa fall kan ett symmetriskt mått vara önskvärt såsom följande redundansmått

som uppnår ett minimum av noll när variablerna är oberoende och ett maximalt värde på

när en variabel blir helt överflödig med kunskapen om den andra. Se även Redundans (informationsteori) .

Ett annat symmetriskt mått är den symmetriska osäkerheten ( Witten & Frank 2005) , given av

som representerar det harmoniska medelvärdet av de två osäkerhetskoefficienterna .

Om vi ​​betraktar ömsesidig information som ett specialfall av den totala korrelationen eller den dubbla totala korrelationen , är den normaliserade versionen respektive,

och

Denna normaliserade version även känd som Information Quality Ratio (IQR) som kvantifierar mängden information för en variabel baserat på en annan variabel mot total osäkerhet:

Det finns en normalisering som härrör från att man först tänker på ömsesidig information som en analog till kovarians (sålunda är Shannon-entropi analog med varians ). Sedan beräknas den normaliserade ömsesidiga informationen i likhet med Pearsons korrelationskoefficient ,

Viktade varianter

I den traditionella formuleringen av den ömsesidiga informationen,

varje händelse eller objekt som anges av viktas med motsvarande sannolikhet . Detta förutsätter att alla objekt eller händelser är likvärdiga förutom deras sannolikhet att inträffa. Men i vissa tillämpningar kan det vara så att vissa objekt eller händelser är mer betydelsefulla än andra, eller att vissa associationsmönster är mer semantiskt viktiga än andra.

Till exempel, den deterministiska mappningen kan ses som starkare än den deterministiska mappningen , även om dessa relationer skulle ge samma ömsesidiga information. Detta beror på att den ömsesidiga informationen inte alls är känslig för någon inneboende ordning i variabelvärdena ( Cronbach 1954 , Coombs, Dawes & Tversky 1970 , Lockhead 1970 ), och därför inte alls är känslig för formen av den relationella kartläggningen mellan de tillhörande variabler. Om man önskar att den förra relationen – som visar överensstämmelse om alla variabelvärden – bedöms som starkare än den senare relationen, så är det möjligt att använda följande viktade ömsesidiga information ( Guiasu 1977 ).

vilket sätter en vikt på sannolikheten för att varje variabelvärde ska inträffa samtidigt, . Detta tillåter att vissa sannolikheter kan ha mer eller mindre betydelse än andra, vilket möjliggör kvantifiering av relevanta holistiska eller Prägnanzfaktorer . I exemplet ovan använder du större relativa vikter för , och skulle ha effekten att bedöma större informativitet för relationen än för relationen , vilket kan vara önskvärt i vissa fall av mönsterigenkänning och liknande. Denna viktade ömsesidiga information är en form av viktad KL-Divergens, som är känd för att ta negativa värden för vissa indata, och det finns exempel där den viktade ömsesidiga informationen också tar negativa värden.

Justerad ömsesidig information

En sannolikhetsfördelning kan ses som en partition av en uppsättning . Man kan då fråga sig: om en mängd var uppdelad slumpmässigt, vad skulle fördelningen av sannolikheter vara? Vad skulle förväntningsvärdet på den ömsesidiga informationen vara? Den justerade ömsesidiga informationen eller AMI subtraherar förväntningsvärdet för MI, så att AMI är noll när två olika distributioner är slumpmässiga, och en när två distributioner är identiska. AMI definieras i analogi med det justerade Rand-indexet för två olika partitioner i en uppsättning.

Absolut ömsesidig information

Med hjälp av idéerna om Kolmogorovs komplexitet kan man överväga den ömsesidiga informationen om två sekvenser oberoende av eventuell sannolikhetsfördelning:

För att fastställa att denna kvantitet är symmetrisk upp till en logaritmisk faktor ( ) man kräver kedjeregeln för Kolmogorov-komplexitet ( Li & Vitányi 1997) . Approximationer av denna kvantitet via komprimering kan användas för att definiera ett avståndsmått för att utföra en hierarkisk klustring av sekvenser utan att ha någon domänkännedom om sekvenserna ( Cilibrasi & Vitányi 2005) .

Linjär korrelation

Till skillnad från korrelationskoefficienter, såsom produktmomentkorrelationskoefficienten, innehåller ömsesidig information information om allt beroende - linjärt och olinjärt - och inte bara linjärt beroende som korrelationskoefficientmåttet. Men i det snäva fallet att den gemensamma fördelningen för och är en bivariat normalfördelning (vilket särskilt antyder att båda marginalfördelningarna är normalfördelade), finns det ett exakt samband mellan och korrelationskoefficienten ( Gel'fand & Yaglom 1957) .

Ekvationen ovan kan härledas enligt följande för en bivariat Gauss:

Därför,

För diskreta data

När och är begränsade till att vara i ett diskret antal tillstånd, sammanfattas observationsdata i en beredskapstabell , med radvariabel eller ) och kolumnvariabel (eller ). Ömsesidig information är ett av måtten på association eller korrelation mellan rad- och kolumnvariablerna.

Andra mått på association inkluderar Pearsons chi-kvadratteststatistik , G- teststatistik, etc. Faktum är att med samma loggbas kommer ömsesidig information att vara lika med G-test log-sannolikhetsstatistik dividerat med , där är provstorleken.

Ansökningar

I många applikationer vill man maximera ömsesidig information (och därmed öka beroenden), vilket ofta motsvarar att minimera villkorlig entropi . Exempel inkluderar:

  • Inom sökmotorteknik används ömsesidig information mellan fraser och sammanhang som en funktion för k-betyder klustring för att upptäcka semantiska kluster (begrepp). Till exempel kan den ömsesidiga informationen för ett bigram beräknas som:

där är antalet gånger som bigrammet xy förekommer i korpusen, är antalet gånger som unigrammet x förekommer i korpusen, B är det totala antalet bigram, och U är det totala antalet unigram.

Se även

Anteckningar