Bayesiansk programmering

Bayesiansk programmering är en formalism och en metod för att ha en teknik för att specificera sannolikhetsmodeller och lösa problem när mindre än den nödvändiga informationen är tillgänglig.

Edwin T. Jaynes föreslog att sannolikhet kunde betraktas som ett alternativ och en förlängning av logiken för rationella resonemang med ofullständig och osäker information. I sin grundbok Probability Theory: The Logic of Science utvecklade han denna teori och föreslog vad han kallade "roboten", som inte var en fysisk anordning, utan en inferensmotor för att automatisera sannolikhetsresonemang - ett slags prolog för sannolikhet istället för logik . Bayesiansk programmering är en formell och konkret implementering av denna "robot".

Bayesiansk programmering kan också ses som en algebraisk formalism för att specificera grafiska modeller som till exempel Bayesianska nätverk , dynamiska Bayesianska nätverk , Kalman-filter eller dolda Markov-modeller . Faktum är att Bayesiansk programmering är mer allmän än Bayesianska nätverk och har en uttryckskraft som motsvarar sannolikhetsfaktorgrafer .

Formalism

Ett Bayesianskt program är ett sätt att specificera en familj av sannolikhetsfördelningar.

Beståndsdelarna i ett Bayesianskt program presenteras nedan:

{\text{Program}}{\begin{cases}{\text{Description}}{\begin{cases}{\ text{Specification}}(\pi ){\begin{cases}{\text{Variables}}\\{\text{Decomposition}}\\{\text{Forms}}\\\end{cases}}\\ {\text{Identifiering (baserat på }}\delta )\end{cases}}\\{\text{Fråga}}\end{cases}}

Ett program är uppbyggt av en beskrivning och en fråga.
En beskrivning konstrueras med hjälp av någon specifikation ( $\pi$ ) som ges av programmeraren och en identifierings- eller inlärningsprocess för parametrarna som inte är helt specificerade av specifikationen, med hjälp av en datamängd ( $\delta$ ) .
En specifikation är uppbyggd av en uppsättning relevanta variabler, en sönderdelning och en uppsättning former.
Blanketter är antingen parametriska formulär eller frågor till andra Bayesianska program.
En fråga anger vilken sannolikhetsfördelning som ska beräknas.

Beskrivning

Syftet med en beskrivning är att specificera en effektiv metod för att beräkna en gemensam sannolikhetsfördelning på en uppsättning variabler $\left\{X_{1},X_{2} ,\cdots ,X_{N}\right\}$ givet en uppsättning experimentella data $\delta$ och viss specifikation $\pi$ . Denna gemensamma fördelning betecknas som: $P\left(X_{1}\wedge X_{2}\wedge \cdots \wedge X_{N }\mid \delta \wedge \pi \right)$ .

För att specificera förkunskaper $\pi$ måste programmeraren göra följande:

Definiera uppsättningen av relevanta variabler $\left\{X_{1},X_{2},\cdots ,X_{N}\right\}$ där gemensam fördelning definieras.
Bryt upp den gemensamma fördelningen (bryt upp den i relevanta oberoende eller villkorade sannolikheter ).
Definiera formerna för var och en av fördelningarna (t.ex. en av listan med sannolikhetsfördelningar för varje variabel ).

Sönderfall

Givet en partition av $\left\{X_{1},X_{2},\ldots ,X_{N}\right\}$ innehållande $K$ delmängder, $K$ variabler definieras $L_{1},\cdots ,L_{K}$ , var och en motsvarar en av dessa delmängder. Varje variabel $L_{k}$ erhålls som konjunktionen av variablerna $\left\{X_{k_{1}},X_{k_{ 2}},\cdots \right\}$ som hör till $k^{th}$ delmängden. Rekursiv tillämpning av Bayes teorem leder till:

{\begin{aligned}&P\left(X_{1}\wedge X_{2} \wedge \cdots \wedge X_{N}\mid \delta \wedge \pi \right)\\={}&P\left(L_{1}\wedge \cdots \wedge L_{K}\mid \delta \wedge \pi \right)\\={}&P\left(L_{1}\mid \delta \wedge \pi \right)\times P\left(L_{2}\mid L_{1}\wedge \delta \ wedge \pi \right)\times \cdots \times P\left(L_{K}\mid L_{K-1}\wedge \cdots \wedge L_{1}\wedge \delta \wedge \pi \right)\ end{aligned}}

om villkorad oberoende tillåter sedan ytterligare förenklingar. En villkorlig oberoendehypotes för variabel $L_{k}$ definieras genom att välja någon variabel $X_{n}$ bland variablerna som förekommer i konjunktionen ${\displaystyle L_{k-1}\wedge \cdots \wedge L_{2}\wedge L_{1}} ,$ märkning $R_{k}$ som konjunktionen av dessa valda variabler och inställning:

P\left(L_{k}\mid L_{k-1 }\wedge \cdots \wedge L_{1}\wedge \delta \wedge \pi \right)=P\left(L_{k}\mid R_{k}\wedge \delta \wedge \pi \right)

Vi får då:

{\begin{aligned}&P\left(X_{1}\wedge X_{2}\wedge \cdots \wedge X_{N}\mid \delta \wedge \pi \right)\ \={}&P\left(L_{1}\mid \delta \wedge \pi \right)\times P\left(L_{2}\mid R_{2}\wedge \delta \wedge \pi \right) \times \cdots \times P\left(L_{K}\mid R_{K}\wedge \delta \wedge \pi \right)\end{aligned}}

En sådan förenkling av den gemensamma distributionen som en produkt av enklare distributioner kallas en nedbrytning, härledd med hjälp av kedjeregeln .

Detta säkerställer att varje variabel visas högst en gång till vänster om en konditioneringsstapel, vilket är det nödvändiga och tillräckliga villkoret för att skriva matematiskt giltiga uppdelningar. ^{[ citat behövs ]}

Blanketter

Varje distribution ${\displaystyle P\left(L_{k}\mid R_{k}\wedge \delta \wedge \pi \right)} som$ visas i produkten associeras sedan med antingen en parametrisk form (dvs. en funktion ${\displaystyle f_{\mu }\left(L_{k}\right)} )$ eller en fråga till ett annat Bayesiskt program $P\left(L_{k}\mid R_{k}\wedge \delta \wedge \pi \right)=P\left (L\mid R\wedge {\widehat {\delta }}\wedge {\widehat {\pi }}\right)$ .

När det är en form ${\displaystyle f_{\mu }\left(L_{k}\right)} ,$ i allmänhet är $\mu$ en vektor av parametrar som kan bero på $R_{k}$ eller $\delta$ eller båda. Inlärning sker när några av dessa parametrar beräknas med hjälp av datamängden $\delta$ .

En viktig egenskap hos Bayesiansk programmering är denna förmåga att använda frågor till andra Bayesianska program som komponenter i definitionen av ett nytt Bayesianskt program. $P\left(L_{k}\mid R_{k}\wedge \delta \wedge \pi \right)$ erhålls genom vissa slutsatser gjorda av en annan Bayesian program definierat av specifikationerna ${\widehat {\pi }}$ och data ${\widehat {\delta }}$ . Detta liknar att anropa en subrutin i klassisk programmering och ger ett enkelt sätt att bygga hierarkiska modeller .

Fråga

Givet en beskrivning (dvs $P\left(X_{1}\wedge X_{2}\wedge \cdots \wedge X_{N} \mid \delta \wedge \pi \right)$ ), erhålls en fråga genom att partitionera $\left\{X_{1},X_{2},\ cdots ,X_{N}\right\}$ i tre uppsättningar: de sökta variablerna, de kända variablerna och de fria variablerna.

De 3 variablerna $Searched$ , $Known$ och $Free$ definieras som konjunktionen av variablerna som hör till dessa uppsättningar.

En fråga definieras som uppsättningen av distributioner:

P\left(Searched\mid {\text{Known}}\wedge \delta \wedge \pi \right)

gjord av många "instansierade frågor" som kardinal för $Known$ , varje instansierad fråga är fördelningen:

P\left({\text{Searched}}\mid {\text{Known}}\wedge \delta \wedge \pi \right)

Slutledning

Givet den gemensamma fördelningen $P\left(X_{1}\wedge X_{2}\wedge \cdots \wedge X_{N}\mid \delta \wedge \pi \right)$ , är det alltid möjligt att beräkna alla möjliga frågor med hjälp av följande allmänna slutledning:

{\begin{aligned}&P\left({\text{Searched}}\mid {\text{Known}}\wedge \delta \wedge \pi \right)\\= {}&\summa _{\text{Fri}}\left[P\left({\text{Searched}}\wedge {\text{Free}}\mid {\text{Känt}}\wedge \delta \ wedge \pi \right)\right]\\={}&{\frac {\displaystyle \sum _{\text{Free}}\left[P\left({\text{Searched}}\wedge {\text {Free}}\wedge {\text{Känt}}\mid \delta \wedge \pi \right)\right]}{\displaystyle P\left({\text{Känt}}\mid \delta \wedge \pi \right)}}\\={}&{\frac {\displaystyle \sum _{\text{Fri}}\left[P\left({\text{Searched}}\wedge {\text{Free}} \wedge {\text{Känt}}\mid \delta \wedge \pi \right)\right]}{\displaystyle \sum _{{\text{Gratis}}\wedge {\text{Sökade}}}\vänster [P\left({\text{Searched}}\wedge {\text{Fri}}\wedge {\text{Känt}}\mid \delta \wedge \pi \right)\right]}}\\={ }&{\frac {1}{Z}}\times \sum _{\text{Fri}}\left[P\left({\text{Searched}}\wedge {\text{Free}}\wedge { \text{Känt}}\mid \delta \wedge \pi \right)\right]\end{aligned}}

där den första jämlikheten är resultatet av marginaliseringsregeln, den andra är resultatet av Bayes teorem och den tredje motsvarar en andra tillämpning av marginalisering. Nämnaren verkar vara en normaliseringsterm och kan ersättas med en konstant $Z$ .

Teoretiskt tillåter detta att lösa alla Bayesianska slutledningsproblem. I praktiken blir dock kostnaden för att beräkna uttömmande och exakt $P\left({\text{Searched}}\mid {\text{Known}}\wedge \delta \ wedge \pi \right)$ är för stor i nästan alla fall.

Om vi ersätter fogfördelningen med dess nedbrytning får vi:

{\begin{aligned}&P\left({\text {Searched}}\mid {\text{Känt}}\wedge \delta \wedge \pi \right)\\={}&{\frac {1}{Z}}\summa _{\text{Gratis}} \left[\prod _{k=1}^{K}\left[P\left(L_{i}\mid K_{i}\wedge \pi \right)\right]\right]\end{aligned} }

vilket vanligtvis är ett mycket enklare uttryck att beräkna, eftersom problemets dimensionalitet reduceras avsevärt genom nedbrytningen till en produkt av lägre dimensionsfördelningar.

Exempel

Bayesiansk skräppostdetektering

Syftet med Bayesiansk skräppostfiltrering är att eliminera skräppost.

Problemet är väldigt lätt att formulera. E-post ska klassificeras i en av två kategorier: icke-spam eller spam. Den enda tillgängliga informationen för att klassificera e-postmeddelandena är deras innehåll: en uppsättning ord. Att använda dessa ord utan att ta hänsyn till ordningen kallas vanligtvis för en påse med ord .

Klassificeraren bör dessutom kunna anpassa sig till sin användare och lära sig av erfarenhet. Utgående från en initial standardinställning bör klassificeraren ändra sina interna parametrar när användaren inte håller med sitt eget beslut. Det kommer därför att anpassa sig till användarens kriterier för att skilja mellan icke-spam och spam. Det kommer att förbättra sina resultat när det möter alltmer hemligstämplade e-postmeddelanden.

Variabler

Variablerna som krävs för att skriva detta program är följande:

$Spam$ : en binär variabel, falsk om e-postmeddelandet inte är skräppost och sant annars
$W_{0},W_{1},\ldots ,W_{N-1}$ : $N$ binära variabler . $W_{n}$ är sant om det $n^{th}$ ordet i ordboken finns i texten.

Dessa $N+1$ binära variabler summerar all information om ett e-postmeddelande.

Sönderfall

Utgående från den gemensamma fördelningen och med rekursiv tillämpning av Bayes sats får vi:

{\begin{aligned}&P({\text{Spam}}\wedge W_{0}\wedge \cdots \wedge W_{N-1})\\={}&P( {\text{Spam}})\times P(W_{0}\mid {\text{Spam}})\times P(W_{1}\mid {\text{Spam}}\wedge W_{0}) \\&\times \cdots \\&\times P\left(W_{N-1}\mid {\text{Spam}}\wedge W_{0}\wedge \cdots \wedge W_{N-2}\ höger)\end{aligned}}

Detta är ett exakt matematiskt uttryck.

Det kan drastiskt förenklas genom att anta att sannolikheten för att ett ord ska visas som känner till textens natur (spam eller inte) är oberoende av utseendet på de andra orden. Detta är det naiva Bayes- antagandet och detta gör detta spamfilter till en naiv Bayes- modell.

Till exempel kan programmeraren anta att:

P(W_{1}\mid {\text{Spam}}\land W_{0})=P(W_{1}\ mitten av {\text{Spam}})

för att slutligen få:

P({\text{Spam}}\land W_{0 }\land \ldots \land W_{N-1})=P({\text{Spam}})\prod _{n=0}^{N-1}[P(W_{n}\mid {\ text{Spam}})]

Denna typ av antagande är känt som det naiva Bayes antagande . Det är "naivt" i den meningen att oberoendet mellan ord uppenbarligen inte är helt sant. Till exempel försummar den helt att utseendet av ordpar kan vara mer betydelsefullt än isolerade utseenden. Programmeraren kan dock anta denna hypotes och kan utveckla modellen och de tillhörande slutsatserna för att testa hur tillförlitlig och effektiv den är.

Parametriska former

För att kunna beräkna den gemensamma distributionen måste programmeraren nu specificera $N+1$ -distributionerna som visas i nedbrytningen:

$P({\text{Spam}})$ är en tidigare definierad, till exempel av $P([{\text{Spam}} =1])=0,75$
Var och en av de $N$ $N$ -formerna $P(W_{n}\mid {\text{Spam}})$ $P(W_{n}\mid {\text{Spam}})$ kan specificeras med hjälp av Laplace-regeln för succession (detta är en pseudoräkning -baserad utjämningsteknik för att motverka nollfrekvensproblemet med ord som aldrig setts förut):
1. $P(W_{n}\mid [{\text{Spam}}={\text{false}}]) ={\frac {1+a_{f}^{n}}{2+a_{f}}}$
2. $P(W_{n}\mid [{\text{Spam}}={\text{true}}]) ={\frac {1+a_{t}^{n}}{2+a_{t}}}$

där $a_{f}^{n}$ står för antalet förekomster av det $n^{th}$ ordet i icke-spam-e-postmeddelanden och $a_{f}$ står för det totala antalet icke-spam-e-postmeddelanden. På liknande sätt $a_{t}^{n}$ för antalet förekomster av det $n^{th}$ ordet i spam-e-postmeddelanden och $a_ {t}$ står för det totala antalet spam-e-postmeddelanden.

Identifiering

N $N$ -formerna $P(W_{n}\mid {\text{Spam}})$ ännu inte helt specificerade eftersom $2N +2$ parametrar $a_{f}^{n=0,\ldots ,N-1}$ , $a_ {t}^{n=0,\ldots ,N-1}$ , $a_{f}$ och $a_{t}$ har inga värden ännu.

Identifieringen av dessa parametrar kan göras antingen genom att batchbearbeta en serie sekretessbelagda e-postmeddelanden eller genom en inkrementell uppdatering av parametrarna med användning av användarens klassificeringar av e-postmeddelandena när de anländer.

Båda metoderna skulle kunna kombineras: systemet kan börja med initiala standardvärden för dessa parametrar från en generisk databas, sedan anpassar viss inkrementell inlärning klassificeraren till varje enskild användare.

Fråga

Frågan som ställs till programmet är: "Vad är sannolikheten för att en given text är spam när man vet vilka ord som förekommer och inte förekommer i denna text?" Det kan formaliseras genom:

P({\text{Spam}}\mid w_{0}\wedge \cdots \wedge w_{N-1})

som kan beräknas enligt följande:

{\begin{aligned}&P({\text{Spam}}\mid w_{0}\wedge \cdots \wedge w_{N-1})\\={}&{ \frac {\displaystyle P({\text{Spam}})\prod _{n=0}^{N-1}[P(w_{n}\mid {\text{Spam}})]}{\ displaystyle \sum _{\text{Spam}}[P({\text{Spam}})\prod _{n=0}^{N-1}[P(w_{n}\mid {\text{Spam} }})]]}}\end{aligned}}

Nämnaren verkar vara en normaliseringskonstant . Det är inte nödvändigt att beräkna det för att avgöra om vi har att göra med spam. Ett enkelt knep är till exempel att beräkna förhållandet:

{\begin{aligned}&{\frac {P([{ \text{Spam}}={\text{true}}]\mid w_{0}\wedge \cdots \wedge w_{N-1})}{P([{\text{Spam}}={\text {false}}]\mid w_{0}\wedge \cdots \wedge w_{N-1})}}\\={}&{\frac {P([{\text{Spam}}={\text {true}}])}{P([{\text{Spam}}={\text{false}}])}}\times \prod _{n=0}^{N-1}\left[{ \frac {P(w_{n}\mid [{\text{Spam}}={\text{true}}])}{P(w_{n}\mid [{\text{Spam}}={\ text{falskt}}])}}\right]\end{aligned}}

Den här beräkningen är snabbare och enklare eftersom den bara kräver $2N$ -produkter.

Bayesianskt program

Det Bayesianska spamfilterprogrammet är helt definierat av:

\Pr {\begin{cases}Ds{\begin{cases}Sp(\pi ){\begin{ cases}Va:{\text{Spam}},W_{0},W_{1}\ldots W_{N-1}\\Dc:{\begin{cases}P({\text{Spam}}\land W_{0}\land \ldots \land W_{n}\land \ldots \land W_{N-1})\\=P({\text{Spam}})\prod _{n=0}^{ N-1}P(W_{n}\mid {\text{Spam}})\end{cases}}\\Fo:{\begin{cases}P({\text{Spam}}):{\begin {fall}P([{\text{Spam}}={\text{false}}])=0,25\\P([{\text{Spam}}={\text{sant}}])=0,75\ end{cases}}\\P(W_{n}\mid {\text{Spam}}):{\begin{cases}P(W_{n}\mid [{\text{Spam}}={\text {false}}])\\={\frac {1+a_{f}^{n}}{2+a_{f}}}\\P(W_{n}\mid [{\text{Spam} }={\text{true}}])\\={\frac {1+a_{t}^{n}}{2+a_{t}}}\end{cases}}\\\end{cases }}\\\end{fall}}\\{\text{Identifiering (baserat på }}\delta )\end{fall}}\\Qu:P({\text{Spam}}\mid w_{0} \land \ldots \land w_{n}\land \ldots \land w_{N-1})\end{cases}}

Bayesian filter, Kalman filter och dold Markov modell

Bayesianska filter (ofta kallade Rekursiv Bayesiansk uppskattning ) är generiska probabilistiska modeller för tidsutvecklande processer. Många modeller är speciella exempel på detta generiska tillvägagångssätt, till exempel: Kalman-filtret eller Hidden Markov-modellen (HMM).

Variabler

Variabler $S^{0},\ldots ,S^{T}$ är en tidsserie av tillståndsvariabler som anses vara på en tidshorisont som sträcker sig från $0$ till ${\ displaystil T}$ .
Variabler $O^{0},\ldots ,O^{T}$ är en tidsserie av observationsvariabler på samma horisont.

Sönderfall

Nedbrytningen är baserad på:

på ${\displaystyle P(S^{t}\mid S^{t-1})} ,$ kallad systemmodell, övergångsmodell eller dynamisk modell, som formaliserar övergången från tillstånd vid tidpunkten $t-1$ till tillståndet vid tidpunkten $t$ ;
på ${\displaystyle P(O^{t}\mid S^{t})} ,$ kallad observationsmodellen, som uttrycker vad som kan observeras vid tidpunkten $t$ när systemet är i tillståndet $S^{t}$ ;
på ett initialt tillstånd vid tidpunkten $0$ : $P(S^{0}\wedge O^{0})$ .

Parametriska former

De parametriska formerna är inte begränsade och olika val leder till olika välkända modeller: se Kalman-filter och Hidden Markov-modeller nedan.

Fråga

Den typiska frågan för sådana modeller är $P\left(S^{t+k}\mid O^{0}\wedge \cdots \wedge O^ {t}\right)$ : vad är sannolikhetsfördelningen för tillståndet vid tidpunkten $t+k$ när man känner till observationerna från ögonblicket $0$ till $t$ ?

Det vanligaste fallet är Bayesisk filtrering där ${\displaystyle k=0} ,$ som söker efter det nuvarande tillståndet, med kännedom om tidigare observationer.

Det är dock också möjligt ${\displaystyle (k>0)} ,$ att extrapolera ett framtida tillstånd från tidigare observationer, eller att göra utjämning ( $\displaystyle (k<0)}$ , för att återställa en tidigare tillstånd från observationer gjorda antingen före eller efter det ögonblicket.

Mer komplicerade frågor kan också ställas som visas nedan i HMM-avsnittet.

Bayesiska filter $(k=0)$ har en mycket intressant rekursiv egenskap, vilket i hög grad bidrar till deras attraktivitet. $P\left(S^{t}|O^{0}\wedge \cdots \wedge O^{t}\right)$ kan helt enkelt beräknas från $P\left(S^{t-1}\mid O^{0}\wedge \cdots \wedge O^{t-1} \right)$ med följande formel:

{\begin{array}{ll}&P\left(S^{t}|O^{0}\wedge \cdots \wedge O^{t}\right)\\= &P\left(O^{t}|S^{t}\right)\times \sum _{S^{t-1}}\left[P\left(S^{t}|S^{t- 1}\right)\ gånger P\left(S^{t-1}|O^{0}\wedge \cdots \wedge O^{t-1}\right)\right]\end{array}}

En annan intressant synpunkt för denna ekvation är att överväga att det finns två faser: en prediktionsfas och en uppskattningsfas:

Under prediktionsfasen förutsägs tillståndet med hjälp av den dynamiska modellen och uppskattningen av tillståndet vid föregående ögonblick:

{\begin{array}{ll}&P\left(S^{t}|O^{0} \wedge \cdots \wedge O^{t-1}\right)\\=&\sum _{S^{t-1}}\left[P\left(S^{t}|S^{t- 1}\right)\ gånger P\left(S^{t-1}|O^{0}\wedge \cdots \wedge O^{t-1}\right)\right]\end{array}}

Under uppskattningsfasen bekräftas eller ogiltigförklaras förutsägelsen med den senaste observationen:

{\begin{aligned}&P\left(S^{t}\mid O^{0}\wedge \cdots \wedge O^{t}\right)\\={}&P\left (O^{t}\mid S^{t}\right)\times P\left(S^{t}|O^{0}\wedge \cdots \wedge O^{t-1}\right)\ end{aligned}}

Bayesianskt program

Pr{\begin{cases}Ds{\begin{cases}Sp(\pi ){\begin{cases}Va:\\S^{0},\cdots ,S^{T},O^{ 0},\cdots ,O^{T}\\Dc:\\{\begin{cases}&P\left(S^{0}\wedge \cdots \wedge S^{T}\wedge O^{0} \wedge \cdots \wedge O^{T}|\pi \right)\\=&P\left(S^{0}\wedge O^{0}\right)\times \prod _{t=1}^ {T}\left[P\left(S^{t}|S^{t-1}\right)\ gånger P\left(O^{t}|S^{t}\right)\right]\ end{cases}}\\Fo:\\{\begin{cases}P\left(S^{0}\wedge O^{0}\right)\\P\left(S^{t}|S^ {t-1}\right)\\P\left(O^{t}|S^{t}\right)\end{cases}}\end{cases}}\\Id\end{cases}}\ \Qu:\\{\begin{cases}{\begin{array}{l}P\left(S^{t+k}|O^{0}\wedge \cdots \wedge O^{t}\right )\\\left(k=0\right)\equiv {\text{Filterering}}\\\left(k>0\right)\equiv {\text{Prediction}}\\\left(k<0\ höger)\equiv {\text{Smoothing}}\end{array}}\end{cases}}\end{cases}}

Kalman filter

De mycket välkända Kalman-filtren är ett specialfall av Bayesian-filter.

De definieras av följande Bayesianska program:

Pr{\begin{cases}Ds{\begin{cases}Sp(\pi ){\begin{cases}Va:\\S^{0},\cdots ,S^ {T},O^{0},\cdots ,O^{T}\\Dc:\\{\begin{cases}&P\left(S^{0}\wedge \cdots \wedge O^{T} |\pi \right)\\=&\left[{\begin{array}{c}P\left(S^{0}\wedge O^{0}|\pi \right)\\\prod _{ t=1}^{T}\left[P\left(S^{t}|S^{t-1}\wedge \pi \right)\ gånger P\left(O^{t}|S^{ t}\wedge \pi \right)\right]\end{array}}\right]\end{cases}}\\Fo:\\{\begin{cases}P\left(S^{t}\mid S^{t-1}\wedge \pi \right)\equiv G\left(S^{t},A\bullet S^{t-1},Q\right)\\P\left(O^{ t}\mid S^{t}\wedge \pi \right)\equiv G\left(O^{t},H\bullet S^{t},R\right)\end{cases}}\end{ case}}\\Id\end{cases}}\\Qu:\\P\left(S^{T}\mid O^{0}\wedge \cdots \wedge O^{T}\wedge \pi \ höger)\end{case}}

Variabler är kontinuerliga.
Övergångsmodellen $P(S^{t}\mid S^{t-1}\wedge \pi )$ och observationsmodellen $P(O^{t}\mid S^{t}\wedge \pi )$ är båda specificerade med gaussiska lagar med medel som är linjära funktioner av konditioneringsvariablerna.

Med dessa hypoteser och genom att använda den rekursiva formeln är det möjligt att lösa slutledningsproblemet analytiskt för att svara på det vanliga $P(S^{T}\mid O ^{0}\wedge \cdots \wedge O^{T}\wedge \pi )$ fråga. Detta leder till en extremt effektiv algoritm, som förklarar populariteten för Kalman-filter och antalet vardagliga applikationer.

När det inte finns några uppenbara linjära övergångs- och observationsmodeller är det fortfarande ofta möjligt, med hjälp av en första ordningens Taylors expansion, att behandla dessa modeller som lokalt linjära. Denna generalisering kallas vanligtvis det utökade Kalman-filtret .

Dold Markov-modell

Hidden Markov-modeller (HMM) är en annan mycket populär specialisering av Bayesianska filter.

De definieras av följande Bayesianska program:

\Pr {\begin{cases}Ds{\begin{cases}Sp(\pi ){\begin{cases}Va:\\S^{ 0},\ldots ,S^{T},O^{0},\ldots ,O^{T}\\Dc:\\{\begin{cases}&P\left(S^{0}\wedge \ cdots \wedge O^{T}\mid \pi \right)\\=&\left[{\begin{array}{c}P\left(S^{0}\wedge O^{0}\mid \ pi \right)\\\prod _{t=1}^{T}\left[P\left(S^{t}\mid S^{t-1}\wedge \pi \right)\ gånger P\ left(O^{t}\mid S^{t}\wedge \pi \right)\right]\end{array}}\right]\end{cases}}\\Fo:\\{\begin{cases }P\left(S^{0}\wedge O^{0}\mid \pi \right)\equiv {\text{Matrix}}\\P\left(S^{t}\mid S^{t -1}\wedge \pi \right)\equiv {\text{Matrix}}\\P\left(O^{t}\mid S^{t}\wedge \pi \right)\equiv {\text{ Matrix}}\end{cases}}\end{cases}}\\Id\end{cases}}\\Qu:\\\max _{S^{1}\wedge \cdots \wedge S^{T- 1}}\left[P\left(S^{1}\wedge \cdots \wedge S^{T-1}\mid S^{T}\wedge O^{0}\wedge \cdots \wedge O^ {T}\wedge \pi \right)\right]\end{cases}}

Variabler behandlas som diskreta.
Övergångsmodellen $P\left(S^{t}\mid S^{t-1}\wedge \pi \right)$ och observationsmodellen $P\left(O^{t}\mid S^{t}\wedge \pi \right)$ är

båda specificerade med hjälp av sannolikhetsmatriser.

Den vanligaste frågan till HMM är:

{\display _{S^{1}\wedge \cdots \wedge S^{T-1}}\left[P\left(S^{1}\wedge \cdots \wedge S^{T-1}\mid S^ {T}\wedge O^{0}\wedge \cdots \wedge O^{T}\wedge \pi \right)\right]}

Vilken är den mest sannolika serien av tillstånd som leder till det nuvarande tillståndet, med kännedom om tidigare observationer?

Denna speciella fråga kan besvaras med en specifik och mycket effektiv algoritm som kallas Viterbi-algoritmen .

Baum –Welch-algoritmen har utvecklats för HMM.

Ansökningar

Akademiska ansökningar

Sedan 2000 har Bayesiansk programmering använts för att utveckla både robotapplikationer och biovetenskapliga modeller.

Robotik

Inom robotteknik tillämpades bayesiansk programmering på autonom robotik , robot- CAD- system, avancerade förarassistanssystem , robotarmkontroll , mobil robotik , människa-robot-interaktion, människa-fordon-interaktion (bayesianska autonoma förarmodeller), programmering och utbildning av videospelsavatarer och strategispel i realtid (AI).

Biovetenskap

Inom biovetenskapen användes bayesiansk programmering i synen för att rekonstruera form från rörelse, för att modellera visuo-vestibulär interaktion och för att studera saccadiska ögonrörelser; i taluppfattning och kontroll för att studera tidig talinlärning och uppkomsten av artikulatoriska-akustiska system; och att modellera handstilsuppfattning och kontroll.

Mönsterigenkänning

Bayesiansk programinlärning har potentiella tillämpningar röstigenkänning och syntes, bildigenkänning och naturlig språkbehandling. Den använder sig av principerna om kompositionalitet (att bygga abstrakta representationer från delar), kausalitet (bygga komplexitet från delar) och lära sig att lära (använda tidigare erkända begrepp för att underlätta skapandet av nya begrepp).

Möjlighetsteorier

Jämförelsen mellan probabilistiska tillvägagångssätt (inte bara bayesiansk programmering) och möjlighetsteorier fortsätter att diskuteras.

Möjlighetsteorier som till exempel fuzzy sets , fuzzy logic och möjlighetsteori är alternativ till sannolikhet för att modellera osäkerhet. De hävdar att sannolikheten är otillräcklig eller obekväm för att modellera vissa aspekter av ofullständig/osäker kunskap.

Sannolikhetsförsvaret baseras huvudsakligen på Cox' teorem , som utgår från fyra postulat om rationella resonemang i närvaro av osäkerhet. Det visar att det enda matematiska ramverket som uppfyller dessa postulat är sannolikhetsteori. Argumentet är att alla andra metoder än sannolikhet med nödvändighet kränker ett av dessa postulat och värdet av den intrånget.

Probabilistisk programmering

Syftet med probabilistisk programmering är att förena omfattningen av klassiska programmeringsspråk med probabilistisk modellering (särskilt bayesianska nätverk ) för att hantera osäkerhet samtidigt som man drar nytta av programmeringsspråkens uttrycksförmåga för att koda komplexitet.

Utökade klassiska programmeringsspråk inkluderar logiska språk som föreslagits i Probabilistic Horn Abduction , Independent Choice Logic, PRISM och ProbLog som föreslår en förlängning av Prolog.

Det kan också vara förlängningar av funktionella programmeringsspråk (i huvudsak Lisp och Scheme ) som IBAL eller CHURCH. De underliggande programmeringsspråken kan vara objektorienterade som i BLOG och FACTORIE eller fler standard som i CES och FIGARO.

Syftet med Bayesiansk programmering är annorlunda. Jaynes föreskrift om "sannolikhet som logik" hävdar att sannolikhet är en förlängning av och ett alternativ till logik över vilken en komplett teori om rationalitet, beräkning och programmering kan byggas om. Bayesiansk programmering försöker ersätta klassiska språk med ett programmeringssätt baserat på sannolikhet som tar hänsyn till ofullständighet och osäkerhet .

Den exakta jämförelsen mellan semantiken och uttryckskraften hos Bayesiansk och probabilistisk programmering är en öppen fråga.

Se även

Vidare läsning

Kamel Mekhnacha (2013). Bayesiansk programmering . Chapman och Hall/CRC. doi : 10.1201/b16111 . ISBN 978-1-4398-8032-6 .

externa länkar

En kompletterande sida till den Bayesianska programmeringsboken där man kan ladda ner ProBT en inferensmotor dedikerad till Bayesiansk programmering.
Sajten Bayesian-programming.org Arkiverad 2013-11-23 på archive.today för att främja Bayesiansk programmering med detaljerad information och många publikationer.