Fisher informationsmått

Inom informationsgeometri är Fisher -informationsmåttet ett speciellt Riemann-mått som kan definieras på ett jämnt statistiskt grenrör , dvs. ett jämnt grenrör vars punkter är sannolikhetsmått definierade på ett gemensamt sannolikhetsutrymme . Den kan användas för att beräkna informationsskillnaden mellan mätningarna.

Måttet är intressant i flera avseenden. Enligt Chentsovs teorem är Fishers informationsmått på statistiska modeller det enda Riemannska mått (upp till omskalning) som är invariant under tillräcklig statistik .

Det kan också förstås som den infinitesimala formen av den relativa entropin ( dvs. Kullback –Leibler-divergensen) ; specifikt är det divergensens hessian . Alternativt kan det förstås som metriken inducerad av den euklidiska metriken för det platta utrymmet , efter lämpliga förändringar av variabeln. När den utvidgas till komplext projektivt Hilbert-rum , blir det Fubini-Study-metriken ; när det skrivs i termer av blandade tillstånd , är det kvant Bures-metriken .

Betraktad rent som en matris, är den känd som Fisher informationsmatris . Betraktad som en mätteknik, där den används för att uppskatta dolda parametrar i termer av observerade slumpvariabler, är den känd som den observerade informationen .

Definition

Givet ett statistiskt grenrör med koordinater , skriver man för sannolikhetsfördelningen som en funktion av . Här från värdeutrymmet R för en (diskret eller kontinuerlig) slumpvariabel X . Sannolikheten normaliseras med

Fisher informationsmåttet tar sedan formen:

Integralen utförs över alla värden x i X . Variabeln är nu en koordinat på ett Riemann-grenrör . Etiketterna j och k indexerar de lokala koordinataxlarna på grenröret.

När sannolikheten härleds från Gibbs-måttet , som det skulle vara för alla markoviska processer , så kan också förstås som en Lagrange-multiplikator ; Lagrangemultiplikatorer används för att upprätthålla begränsningar, som att hålla förväntningsvärdet för någon kvantitet konstant. Om det finns n begränsningar som håller n olika förväntningsvärden konstanta, är grenrörets dimension n dimensioner mindre än det ursprungliga utrymmet. I det här fallet kan måtten explicit härledas från partitionsfunktionen ; en härledning och diskussion presenteras där.

Genom att ersätta från informationsteorin , en ekvivalent form av definitionen ovan är:

För att visa att den ekvivalenta formen är lika med definitionen ovan, notera att

och tillämpa på båda sidor.

Relation till Kullback–Leibler-divergensen

Alternativt kan måtten erhållas som andraderivatan av den relativa entropin eller Kullback–Leibler-divergensen . För att få detta tar man hänsyn till två sannolikhetsfördelningar och som ligger oändligt nära varandra, så den där

med en oändligt liten förändring av i j- riktningen. Sedan, eftersom Kullback–Leibler-divergensen har ett absolut minimum på 0 när man har en expansion upp till andra ordningen i av formuläret

.

Den symmetriska matrisen är positiv (halv)definitiv och är den hessiska matrisen för funktionen vid extrempunkten . Detta kan intuitivt tänkas som: "Avståndet mellan två oändligt nära punkter på en statistisk differentialgren är informationsskillnaden mellan dem."

Relation till Ruppeiner geometri

Ruppeiner -måttet och Weinhold-måttet är Fisher-informationsmåttet beräknat för Gibbs-fördelningar som de som finns i statistisk jämviktsmekanik.

Förändring i fri entropi

Verkan av en kurva på ett Riemann-grenrör ges av

Vägparametern här är tid t ; denna åtgärd kan förstås ge förändringen i fri entropi för ett system när det förflyttas från tid a till tid b . Specifikt har man

som förändringen i fri entropi. Denna observation har resulterat i praktiska tillämpningar inom kemisk industri och processindustri : för att minimera förändringen i fri entropi i ett system bör man följa den minsta geodetiska vägen mellan de önskade slutpunkterna för processen. Geodetiken minimerar entropin, på grund av Cauchy–Schwarz-ojämlikheten , som säger att handlingen begränsas nedan av kurvans längd, kvadratiskt.

Relation till Jensen–Shannon-divergensen

Fisher-måttet låter också åtgärden och kurvlängden relateras till Jensen–Shannon-divergensen . Specifikt har man

där integrand dJSD förstås vara den oändliga förändringen i Jensen–Shannon-divergensen längs vägen. På liknande sätt har man för kurvlängden

Det vill säga kvadratroten av Jensen–Shannon-divergensen är bara Fisher-måttet (dividerat med kvadratroten ur 8).

Som euklidisk metrik

För ett diskret sannolikhetsutrymme , det vill säga ett sannolikhetsutrymme på en ändlig uppsättning objekt, kan Fisher-måttet helt enkelt förstås som det euklidiska måttet begränsat till en positiv "kvadrant" av en enhetssfär, efter lämpliga förändringar av variabel.

Betrakta ett platt, euklidiskt utrymme, med dimensionen N +1 , parametriserad av punkterna . Måttet för euklidiskt rum ges av

där är 1-former ; de är grundvektorerna för det cotangenta rummet . Att skriva som basvektorer för tangentrymden , så att

,

den euklidiska metriken kan skrivas som

Den upphöjda "platt" är till för att påminna om att, när den skrivs i koordinatform, är detta mått med avseende på koordinaten med platta mellanrum y {\ .

En N -dimensionell enhetssfär inbäddad i ( N + 1)-dimensionell euklidisk rymd kan definieras som

Denna inbäddning inducerar en metrik på sfären, den ärvs direkt från den euklidiska metriken på det omgivande rummet. Det tar exakt samma form som ovan, och se till att koordinaterna är begränsade till att ligga på sfärens yta. Detta kan göras, t.ex. med tekniken Lagrange multiplikatorer .

Betrakta nu förändringen av variabeln . Sfärvillkoret blir nu sannolikhetsnormaliseringsvillkoret

medan måtten blir

Den sista kan identifieras som en fjärdedel av Fishers informationsmått. För att slutföra processen, kom ihåg att sannolikheterna är parametriska funktioner för de mångfaldiga variablerna det vill säga en har . Sålunda inducerar ovanstående ett mått på parametergrenröret:

eller, i koordinatform, är Fishers informationsmått:

där, som tidigare,

Den upphöjda 'fisher' är närvarande för att påminna om att detta uttryck är tillämpligt för koordinaterna ; medan den icke-koordinerade formen är densamma som den euklidiska (platt-rymden) metriska. Det vill säga, Fisher-informationsmåttet på ett statistiskt grenrör är helt enkelt (fyra gånger) det euklidiska måttet begränsat till den positiva kvadranten av sfären, efter lämpliga förändringar av variabeln.

När den slumpmässiga variabeln inte är diskret, utan kontinuerlig, gäller argumentet fortfarande. Detta kan ses på ett av två olika sätt. Ett sätt är att noggrant omarbeta alla ovanstående steg i ett oändligt dimensionellt utrymme, var noga med att definiera gränser på lämpligt sätt, etc., för att säkerställa att alla manipulationer är väldefinierade, konvergenta, etc. Det andra sättet, som noterat av Gromov , är att använda en kategoriteoretisk ansats; det vill säga att notera att ovanstående manipulationer förblir giltiga i kategorin sannolikheter. Här bör man notera att en sådan kategori skulle ha egenskapen Radon–Nikodym , det vill säga Radon–Nikodyms sats gäller i denna kategori. Detta inkluderar Hilbert-utrymmena ; dessa är kvadratintegrerbara, och i manipulationerna ovan är detta tillräckligt för att säkert ersätta summan över kvadrater med en integral över kvadrater.

Som Fubini–Studiemått

Ovanstående manipulationer som härleder Fisher-metriken från den euklidiska metriken kan utökas till komplexa projektiva Hilbert-rum . I det här fallet får man Fubini–Study-måttet . Detta borde kanske inte vara någon överraskning, eftersom Fubini–Study-måttet tillhandahåller sättet att mäta information i kvantmekanik. Bures -metriken , även känd som Helström-metriken , är identisk med Fubini-Study-metriken, även om den senare vanligtvis skrivs i termer av rena tillstånd , som nedan, medan Bures-metriken skrivs för blandade tillstånd . Genom att sätta fasen för den komplexa koordinaten till noll, erhåller man exakt en fjärdedel av Fisher-informationsmåttet, precis som ovan.

Man börjar med samma trick, att konstruera en sannolikhetsamplitud , skriven i polära koordinater , så:

Här är en sannolikhetsamplitud med komplext värde ; och är strikt reella. De tidigare beräkningarna erhålls genom att sätta . Det vanliga villkoret att sannolikheter ligger inom en simplex , nämligen att

uttrycks på samma sätt av idén att kvadratamplituden ska normaliseras:

När är verklig, är detta ytan på en sfär.

Fubini –Study-metriken , skriven i infinitesimal form, med kvantmekanisk bra–ket-notation , är

I denna notation har man att och integration över hela måttutrymmet X är skrivet som

Uttrycket kan förstås som en infinitesimal variation; på motsvarande sätt kan det förstås vara en 1-form i kotangensutrymmet . Med den infinitesimala notationen är den polära formen av sannolikheten ovan helt enkelt

Att infoga ovanstående i Fubini–Study-måttet ger:

Att sätta i ovanstående gör det klart att den första termen är (en fjärdedel av) Fishers informationsmått. Den fullständiga formen av ovanstående kan göras något tydligare genom att ändra notation till den för standard Riemannsk geometri, så att metriken blir en symmetrisk 2-form som verkar på tangentrymden . Ändringen av notation görs helt enkelt genom att ersätta och och notera att integralerna bara är förväntade värden; så:

Den imaginära termen är en symbolisk form , det är Berry-fasen eller den geometriska fasen . I indexnotation är måttet:

Återigen, den första termen kan tydligt ses vara (en fjärdedel av) Fishers informationsmått, genom att sätta . På motsvarande sätt kan Fubini-Study-metriken förstås som metriken på komplext projektivt Hilbert-rum som induceras av den komplexa förlängningen av den platta euklidiska metriken. Skillnaden mellan detta, och Bures-måttet, är att Bures-måttet är skrivet i termer av blandade tillstånd.

Kontinuerligt värderade sannolikheter

En något mer formell, abstrakt definition kan ges enligt följande.

Låt X vara ett orienterbart grenrör , och låt vara ett mått X . På motsvarande sätt, låt vara ett sannolikhetsutrymme , med sigma algebra och sannolikhet .

Det statistiska grenröret S ( X ) för X definieras som utrymmet för alla måtten X (med sigma-algebra fast). Observera att det här utrymmet är oändligt dimensionellt och vanligtvis anses vara ett Fréchet-utrymme . Punkterna för S ( X ) är mått.

Välj en punkt och betrakta tangentrymden . Fishers informationsmått är då en inre produkt på tangentrymden. Med visst missbruk av notation kan man skriva detta som

Här är och vektorer i tangentrymden; det vill säga . Missbruket av notation är att skriva tangentvektorerna som om de är derivator, och att infoga det främmande d i att skriva integralen: integrationen är avsedd att utföras med måttet över hela rymden X . Detta missbruk av notation anses i själva verket vara helt normalt i måttteorin ; det är standardnotationen för Radon–Nikodym-derivatan .

För att integralen ska vara väldefinierad måste rymden S ( X ) ha egenskapen Radon–Nikodym , och mer specifikt är tangentrymden begränsad till de vektorer som är kvadratintegrerbara . Kvadratintegrerbarhet motsvarar att säga att en Cauchy-sekvens konvergerar till ett ändligt värde under den svaga topologin : utrymmet innehåller sina gränspunkter. Observera att Hilbert-utrymmen har denna egenskap.

Denna definition av måttet kan ses vara likvärdig med föregående, i flera steg. Först väljer man en undergren av S ( X ) genom att endast beakta de måtten som parametriseras av någon jämnt varierande parameter . Sedan, om är ändlig-dimensionell, så är undergrenen det också; på samma sätt har tangentrymden samma dimension som .

Med ytterligare visst missbruk av språket noterar man att den exponentiella kartan ger en karta från vektorer i ett tangentutrymme till punkter i ett underliggande grenrör. Således, om är en vektor i tangentrymden, då är motsvarande sannolikhet associerad med punkt (efter parallelltransporten av den exponentiella kartan till .) Omvänt, givet en punkt , logaritmen ger en punkt i tangentrymden (grovt sett måste man återigen transportera från origo till punkt ; för detaljer , se originalkällor). Således har man utseendet av logaritmer i den enklare definitionen, som tidigare angetts.

Se även

Anteckningar

  •    Feng, Edward H.; Crooks, Gavin E. (2009). "Långt-ifrån-jämviktsmätningar av termodynamisk längd". Fysisk granskning E . 79 (1 Pt 1): 012104. arXiv : 0807.0621 . Bibcode : 2009PhRvE..79a2104F . doi : 10.1103/PhysRevE.79.012104 . PMID 19257090 . S2CID 8210246 .
  • Shun'ichi Amari (1985) Differentialgeometriska metoder i statistik , Lecture Notes in Statistics, Springer-Verlag, Berlin.
  • Shun'ichi Amari, Hiroshi Nagaoka (2000) Metoder för informationsgeometri , översättningar av matematiska monografier; v. 191, American Mathematical Society.
  • Paolo Gibilisco, Eva Riccomagno, Maria Piera Rogantin och Henry P. Wynn, (2009) Algebraic and Geometric Methods in Statistics , Cambridge U. Press, Cambridge.