Informationsmängder
Den matematiska informationsteorin bygger på sannolikhetsteori och statistik och mäter information med flera informationskvantiteter . Valet av logaritmisk bas i följande formler bestämmer vilken enhet för informationsentropi som används. Den vanligaste informationsenheten är biten , eller mer korrekt shannon , baserat på den binära logaritmen . Även om "bit" används oftare i stället för "shannon", skiljer sig inte dess namn från biten som används i databehandling för att referera till ett binärt värde eller ström oavsett dess entropi (informationsinnehåll) Andra enheter inkluderar nat . , baserat på den naturliga logaritmen , och hartley , baserat på basen 10 eller vanlig logaritm .
I det följande anses ett uttryck av formen enligt konventionen vara lika med noll närhelst är noll. Detta är motiverat eftersom för vilken logaritmisk bas som helst.
Självinformation
Shannon härledde ett mått på informationsinnehåll som kallas självinformation eller "överraskning" av ett meddelande :
där är sannolikheten att meddelandet väljs bland alla möjliga val i meddelandeutrymmet . Basen för logaritmen påverkar endast en skalningsfaktor och följaktligen i vilka enheter det uppmätta informationsinnehållet uttrycks. Om logaritmen är bas 2 uttrycks informationsmåttet i enheter av shannon eller oftare helt enkelt "bitar" (en bit definieras i andra sammanhang snarare som en "binär siffra", vars genomsnittliga informationsinnehåll är högst 1 shannon) .
Information från en källa erhålls av en mottagare endast om mottagaren inte redan hade den informationen till att börja med. Meddelanden som förmedlar information om en viss (P=1) händelse (eller en som är känd med säkerhet, till exempel genom en bakkanal) ger ingen information, vilket ovanstående ekvation indikerar. Sällan förekommande meddelanden innehåller mer information än mer frekvent förekommande meddelanden.
Det kan också visas att ett sammansatt meddelande av två (eller flera) icke-relaterade meddelanden skulle ha en mängd information som är summan av informationsmåtten för varje meddelande individuellt. Det kan härledas med denna definition genom att betrakta ett sammansatt meddelande som ger information om värdena för två slumpvariabler M och N med hjälp av ett meddelande som är sammanlänkningen av de elementära meddelandena m och n , vardera av vars informationsinnehåll ges av respektive . Om meddelandena m och n var och en endast beror på M och N, och processerna M och N är oberoende , då (definitionen av statistiskt oberoende) framgår av definitionen ovan att .
Ett exempel: Väderprognossändningen är: "Kattens prognos: Mörkt. Fortsatt mörker tills spritt ljus på morgonen." Detta meddelande innehåller nästan ingen information. En prognos om en snöstorm skulle dock säkert innehålla information eftersom det inte händer varje kväll. Det skulle finnas en ännu större mängd information i en korrekt snöprognos för en varm plats, som Miami . Mängden information i en snöprognos för en plats där det aldrig snöar (omöjlig händelse) är högst (oändligt).
Entropi
Entropin för ett diskret meddelandeutrymme är ett mått på hur stor osäkerhet man har om vilket meddelande som kommer att väljas. Den definieras som den genomsnittliga självinformationen för ett meddelande från det meddelandeutrymmet:
var
- anger den förväntade värdeoperationen .
En viktig egenskap hos entropin är att den maximeras när alla meddelanden i meddelandeutrymmet är lika sannolika (t.ex. . I detta fall .
Ibland uttrycks funktionen i termer av fördelningens sannolikheter:
- } and
Ett viktigt specialfall av detta är den binära entropifunktionen :
Ledentropi
Den gemensamma entropin för två diskreta slumpvariabler och definieras som entropin för den gemensamma fördelningen av och :
Om och är oberoende , så är den gemensamma entropin helt enkelt summan av deras individuella entropier.
(Obs: Den gemensamma entropin ska inte förväxlas med korsentropin, trots liknande notationer.)
Villkorlig entropi (tveksamhet)
Givet ett särskilt värde på en slumpvariabel den villkorliga entropin för givet som:
där är villkoret sannolikheten för givet .
Den villkorliga entropin för givet , även kallad tvetydigheten av om ges då av:
Detta använder den betingade förväntan från sannolikhetsteorin.
En grundläggande egenskap hos den villkorliga entropin är att:
Kullback–Leibler divergens (informationsvinst)
Kullback –Leibler-divergensen (eller informationsdivergens , informationsvinst eller relativ entropi ) är ett sätt att jämföra två fördelningar, en "sann" sannolikhetsfördelning , och en godtycklig sannolikhetsfördelning . Om vi komprimerar data på ett sätt som antar att är fördelningen som ligger bakom vissa data, när i verkligheten är den korrekta fördelningen, är Kullback–Leibler-divergensen antalet genomsnittliga ytterligare bitar per datum som krävs för komprimering, eller, matematiskt,
Det är i någon mening "avståndet" från till , även om det inte är ett sant mått på grund av att det inte är symmetriskt.
Ömsesidig information (transinformation)
Det visar sig att ett av de mest användbara och viktigaste måtten på information är den ömsesidiga informationen , eller transinformation . Detta är ett mått på hur mycket information som kan erhållas om en slumpvariabel genom att observera en annan. Den ömsesidiga informationen för i förhållande till (som begreppsmässigt representerar den genomsnittliga mängd information om som kan erhållas genom att observera ) ges av :
En grundläggande egenskap hos den ömsesidiga informationen är att:
Det vill säga, om vi känner till , kan vi spara ett genomsnitt av bitar i kodning av jämfört med inte att veta . Ömsesidig information är symmetrisk :
Ömsesidig information kan uttryckas som den genomsnittliga Kullback–Leibler-divergensen (informationsvinst) för den bakre sannolikhetsfördelningen av givet värdet av till den tidigare fördelningen på :
Detta är med andra ord ett mått på hur mycket sannolikhetsfördelningen på kommer att förändras om vi får värdet på . Detta räknas ofta om som divergensen från produkten av marginalfördelningarna till den faktiska gemensamma fördelningen:
Ömsesidig information är nära relaterad till log-likelihood-kvotstestet i sammanhanget av kontingenstabeller och multinomialfördelningen och till Pearsons χ 2 - test : ömsesidig information kan betraktas som en statistik för att bedöma oberoende mellan ett par av variabler, och har en väl- specificerad asymptotisk fördelning.
Differentialentropi
De grundläggande måtten för diskret entropi har utvidgats analogt till kontinuerliga rum genom att ersätta summor med integraler och sannolikhetsmassfunktioner med sannolikhetstäthetsfunktioner . Även om ömsesidig information i båda fallen uttrycker antalet informationsbitar som är gemensamma för de två källorna i fråga, innebär analogin inte identiska egenskaper; till exempel kan differentiell entropi vara negativ.
De differentiella analogierna av entropi, ledentropi, villkorlig entropi och ömsesidig information definieras enligt följande:
där är fogdensitetsfunktionen, och är marginalfördelningar, och är den villkorliga fördelningen.
Se även
- ^ DJC Mackay. Informationsteori, slutsatser och inlärningsalgoritmer .