Separationsprincip vid stokastisk kontroll

Separationsprincipen är en av de grundläggande principerna för stokastisk kontrollteorin , som säger att problemen med optimal kontroll och tillståndsuppskattning kan frikopplas under vissa förhållanden . I sin mest grundläggande formulering handlar det om ett linjärt stokastiskt system

{\begin{aligned}dx&=A(t)x(t)\,dt+B_{1}(t)u(t)\,dt+B_{2}(t)\, dw\\dy&=C(t)x(t)\,dt+D(t)\,dw\end{aligned}}

med en tillståndsprocess $x$ , en utdataprocess $y$ och en kontroll $u$ , där $w$ är en vektorvärderad wienerprocess , ${\ displaystyle x(0)} är en$ gaussisk slumpvektor med nollmedelvärde oberoende av $w$ , $y(0)=0$ , och $A$ , ${\ displaystyle B_{1}}$ , $B_{2}$ , $C$ , $D$ är funktioner med matrisvärde som i allmänhet anses vara kontinuerliga av begränsad variation. Dessutom $DD'$ ickesingular på något intervall $T]}$ , Problemet är att utforma en utgående feedbacklag $\pi :\,y\mapsto u$ som mappar den observerade processen $y$ till styringången $u$ i en icke-förutseende sätt för att minimera det funktionella

J(u)=\mathbb {E} \left\{\int _{0}^{T}x(t)'Q(t)x(t)\,dt+\int _{0}^{T}u(t)'R(t)u(t)\,dt+x(T)'Sx(T)\right\},

där $\mathbb {E}$ anger förväntat värde, primtal ( $'$ ) anger transponera. och $Q$ och $R$ är kontinuerliga matrisfunktioner av begränsad variation, $Q(t)$ är positiv semidefinitiv och $) {\displaystyle R(t$ är positivt definitivt för alla $t$ . Under lämpliga förhållanden, som måste anges korrekt, kan den optimala policyn $\pi$ väljas i formuläret

u(t)=K(t){\hat {x}}(t),

där ${\hat {x}}(t)$ är den linjära minsta kvadratiska uppskattningen av tillståndsvektorn $x(t)$ erhållen från Kalman-filtret

d{\hat {x}}=A(t){\hat {x}}(t)\,dt+B_{1}(t)u(t)\,dt+ L(t)(dy-C(t){\hat {x}}(t)\,dt),\quad {\hat {x}}(0)=0,

där $K$ är förstärkningen för den optimala linjär-kvadratiska regulatorn som erhålls genom att ta $B_{2}=D=0$ och $x(0)$ deterministiskt , och där $L$ är Kalman-förstärkningen . Det finns även en icke-Gaussisk version av detta problem (som diskuteras nedan) där Wienerprocessen $w$ ersätts av en mer allmän kvadratisk integrerbar martingal med möjliga hopp. I det här fallet måste Kalman-filtret ersättas av ett icke-linjärt filter som ger en uppskattning av det (strikt bemärkta) villkorliga medelvärdet

{\hat {x}}(t)=\operatörsnamn {E} \{x(t)\mid {\cal {Y }}_{t}\},

var

{\cal {Y}}_{t}:=\sigma \{y(\tau ), \tau \in [0,t]\},\quad 0\leq t\leq T,

är den filtrering som genereras av utmatningsprocessen; dvs familjen av ökande sigmafält som representerar data när den produceras.

I den tidiga litteraturen om separationsprincipen var det vanligt att tillåta som tillåtna kontroller $u$ alla processer som är anpassade till filtreringen $\{{\cal {Y} }_{t},\,0\leq t\leq T\}$ . Detta motsvarar att tillåta alla icke-föregripande Borel-funktioner som återkopplingslagar, vilket väcker frågan om existensen av en unik lösning på återkopplingsslingans ekvationer. Dessutom måste man utesluta möjligheten att en icke-linjär registeransvarig extraherar mer information från uppgifterna än vad som är möjligt med en linjär kontrolllag.

Val av klassen av tillåtna kontrolllagar

Linjär-kvadratisk kontrollproblem löses ofta med ett argument för komplettering av kvadrater. I vårt nuvarande sammanhang har vi

J(u)=\operatörsnamn {E} \ left\{\int _{0}^{T}(u-Kx)'R(u-Kx)\,dt\right\}+{\text{termer som inte beror på }}u,

där den första termen har formen

{\begin{aligned}\operatörsnamn {E} \left\{\int _{0}^{T}(u-Kx)'R(u-Kx) \,dt\right\}=\operatörsnamn {E} \left\{\int _{0}^{T}[(uK{\hat {x}})'R(uK{\hat {x}}) +\operatörsnamn {tr} (K'RK\Sigma )]\,dt\right\},\end{aligned}}

där $\Sigma$ är kovariansmatrisen

\Sigma (t):=\operatörsnamn {E} \{[x(t)-{\hat {x}}(t)][x(t)-{\hat {x}}(t) ]'\}.

Separationsprincipen skulle nu följa omedelbart om ${\begin{aligned}\Sigma \end{aligned}}$ var oberoende av kontrollen. Detta måste dock fastställas.

Tillståndsekvationen kan integreras för att ta formen

x(t)=x_{0}(t)+\int _{ 0}^{t}\Phi (t,s)B_{1}(s)u(s)\,ds,

där $x_{0}$ är tillståndsprocessen som erhålls genom att sätta $u=0$ och $\Phi$ är övergångsmatrisfunktionen. Genom linjäritet, ${\hat {x}}(t)=\operatörsnamn {E} \{x(t)\mid {\cal {Y}}_{t}\}$ är lika med

{\hat {x}}(t)={\hat { x}}_{0}(t)+\int _{0}^{t}\Phi (t,s)B_{1}(s)u(s)\,ds,

där ${\hat {x}}_{0}(t)=\operatörsnamn {E} \{x_{0}(t) \mid {\cal {Y}}_{t}\}$ . Följaktligen,

\Sigma (t):=\mathbb {E} \{[x_{0}(t)-{\hat {x}}_{0}(t)][x_{0}(t)-{\hat {x}}_{0}(t)] '\},

men vi måste fastställa att ${\begin{aligned}{\hat {x}}_{0}\end{aligned}}$ inte beror på kontrollen. Detta skulle vara fallet om

{\cal {Y}}_{t}={\cal {Y}}_ {t}^{0}:=\sigma \{y_{0}(\tau ),\tau \in [0,t]\},\quad 0\leq t\leq T,

där $y_{0}$ är utdataprocessen som erhålls genom att ställa in $u=0$ . Denna fråga diskuterades ingående av Lindquist. Faktum är att eftersom kontrollprocessen $u$ i allmänhet är en icke-linjär funktion av data och därmed icke-Gaussisk, så är utmatningsprocessen ${\displaystyle y} det också$ . För att undvika dessa problem kan man börja med att koppla bort återkopplingsslingan och bestämma en optimal styrprocess i klassen av stokastiska processer $u$ som är anpassade till familjen $\{{\cal {Y }}_{t}^{0}\}$ av sigma-fält. Detta problem, där man optimerar över klassen av alla styrprocesser anpassade till en fast filtrering, kallas ett stokastiskt open loop (SOL) problem . Det är inte ovanligt i litteraturen att från början anta att kontrollen är anpassad till $\{{\mathcal {Y}}_{t}^{0}\}$ ; se t.ex. avsnitt 2.3 i Bensoussan, även van Handel och Willems.

I Lindquist 1973 föreslogs ett förfarande för hur man på ett problemberoende sätt kan inbädda klassen av tillåtna kontroller i olika SOL-klasser och sedan konstruera motsvarande återkopplingslag. Den största klassen $\Pi$ av tillåtna återkopplingslagar $\pi$ består av de icke-anticiperande funktionerna $u:=\pi (y)$ så att feedbackekvationen har en unik lösning och motsvarande styrprocess $u_{\pi }$ är anpassad till $\{{\mathcal {Y}}_{t}^{0}\ }$ . Därefter ger vi några exempel på specifika klasser av återkopplingslagar som tillhör denna allmänna klass, såväl som några andra strategier i litteraturen för att övervinna de ovan beskrivna problemen.

Linjära kontrolllagar

Den tillåtna klassen $\Pi$ av kontrolllagar skulle kunna begränsas till att endast innehålla vissa linjära sådana som i Davis. Mer allmänt den linjära klassen

({\mathcal {L}})\quad u(t)={\bar {u} }(t)+\int _{0}^{t}F(t,\tau )\,dy,

där ${\bar {u}}$ är en deterministisk funktion och $F$ är en $L_{2}$ kärna, säkerställer att $\Sigma$ är oberoende av kontrollen. Faktum är att den Gaussiska egenskapen då kommer att bevaras, och ${\hat {x}}$ kommer att genereras av Kalman-filtret. Då genereras felprocessen ${\displaystyle {\tilde {x}}:=x-{\hat {x}}} av$

d{\tilde {x}}=(A-LC ){\tilde {x}}\,dt+(B_{2}-LD)\,dw,\quad {\tilde {x}}(0)=x(0),

vilket är klart oberoende av valet av styrning, och sålunda är $\Sigma$ .

Lipschitz-kontinuerliga kontrolllagar

Wonham bevisade ett separationsteorem för kontroller i klassen ${\begin{aligned}\pi :\,u(t)=\psi (t ,{\hat {x}}(t))\end{aligned}}$ , även för en mer allmän kostnadsfunktion än J(u). Beviset är dock långt ifrån enkelt och det finns många tekniska antaganden. Till exempel ${\begin{aligned}C(t)\end{aligned}}$ kvadratisk och ha en determinant avgränsad från noll, vilket är en allvarlig begränsning. Ett senare bevis av Fleming och Rishel är betydligt enklare. De bevisar också separationssatsen med kvadratisk kostnad funktionell $J(u)$ för en klass av Lipschitz kontinuerliga återkopplingslagar, nämligen $u(t) =\phi (t,y)$ , där $\phi :\,[0,T]\ gånger C^{n}[0, T]\to {\mathbb {R} }^{m}$ är en icke-anticiperande funktion av $y$ som är Lipschitz kontinuerlig i detta argument. Kushner föreslog en mer begränsad klass ${\displaystyle u(t)=\psi (t,{\hat {\xi }}(t))} ,$ där modifierad tillståndsprocess ${\hat {\xi }}$ ges av

{\hat {\xi }}( t)=\operatörsnamn {E} \{x_{0}(t)\mid {\mathcal {Y}}_{t}^{0}\}+\int _{0}^{t}\Phi ( t,s)B_{1}(s)u(s)\,ds,

leder till identiteten ${\begin{aligned}{\hat {x}}={\hat {\xi }}\end{aligned}}$ .

Imponerande försening

Om det finns en fördröjning i behandlingen av de observerade data så att för varje ${\displaystyle t}, är$ u $\displaystyle u(t)}$ en funktion av ${\displaystyle y(\tau );\,0\leq \tau \leq t-\varepsilon } ,$ då ${\cal {Y}}_{t} ={\cal {Y}}_{t}^{0}$ , $0\leq t\leq T$ , se exempel 3 i Georgiou och Lindquist. Följaktligen $\Sigma$ oberoende av kontrollen. Ändå måste styrpolicyn $\pi$ vara sådan att återkopplingsekvationerna har en unik lösning.

Följaktligen uppstår inte problemet med eventuellt kontrollberoende sigmafält i den vanliga tidsdiskreta formuleringen. En procedur som används i flera läroböcker för att konstruera den kontinuerliga tiden $\Sigma$ som gränsen för ändliga skillnadskvotienter för den diskreta tiden ${\displaystyle \Sigma } ,$ som inte beror på kontrollen, är cirkulär eller en bästa ofullständig; se anmärkning 4 i Georgiou och Lindquist.

Svaga lösningar

Ett tillvägagångssätt introducerat av Duncan och Varaiya och Davis och Varaiya, se även avsnitt 2.4 i Bensoussan är baserat på svaga lösningar av den stokastiska differentialekvationen. Med tanke på sådana lösningar av

dx=A(t)x(t)\,dt+ B_{1}(t)u(t)\,dt+B_{2}(t)\,dw

vi kan ändra sannolikhetsmåttet (som beror på ${\displaystyle {\begin{aligned}u\end{aligned}}} )$ via en Girsanov- transformation så att

d{\tilde {w}}:=B_{1}(t)u(t)\, dt+B_{2}(t)\,dw

blir en ny Wienerprocess, som (under det nya sannolikhetsmåttet) kan antas vara opåverkad av kontrollen. Frågan om hur detta skulle kunna implementeras i ett ingenjörssystem lämnas öppen.

Icke-linjära filtreringslösningar

Även om en icke-linjär kontrolllag kommer att producera en icke-Gaussisk tillståndsprocess, kan det visas, med hjälp av icke-linjär filtreringsteori (kapitel 16.1 i Lipster och Shirayev ), att tillståndsprocessen är villkorligt Gaussisk givet filtreringen ${ \begin{aligned}\{{\mathcal {Y}}_{t}\}\end{aligned}}$ . Detta faktum kan användas för att visa att ${\begin{aligned}{\hat {x}}\end{aligned}}$ faktiskt genereras av ett Kalman-filter (se kapitel 11 och 12 i Lipster och Shirayev ). Detta kräver dock en ganska sofistikerad analys och är begränsad till fallet där körljudet ${\begin{aligned}w\end{aligned}}$ är en wienerprocess.

Ytterligare historiskt perspektiv finns i Mitter.

Frågor om återkoppling i linjära stokastiska system

Vid denna tidpunkt är det lämpligt att överväga en mer allmän klass av kontrollerade linjära stokastiska system som även omfattar system med tidsfördröjningar, nämligen

{\begin{aligned}z(t)&=z_ {0}(t)+\int _{0}^{t}G(t,s)u(s)\,ds\\y(t)&=Hz(t)\end{aligned}}

med ${\begin{aligned}z_{0}\end{aligned}}$ en stokastisk vektorprocess som inte är beroende av kontrollen. Standard stokastiska systemet erhålls sedan som ett specialfall där $z=[x',y']'$ , $z_{0}=[x_{0}',y_{0}']'$ och $H=[I,0]$ . Vi ska använda den korta notationen

z=z_{0}+g\pi Hz

för återkopplingssystemet, var

g\;:\;(t,u)\mapsto \int _{0}^{t}G( t,\tau )u(\tau )\,d\tau

är en Volterra-operatör.

I denna mer allmänna formulering definierar Lindquists inbäddningsprocedure klassen $\Pi$ av tillåtna återkopplingslagar $\pi$ som klassen av icke-förutseende funktioner $u :=\pi (y)$ så att återkopplingsekvationen $z=z_{0}+g\pi Hz$ har en unik lösning $z_{\pi }$ och $u=\pi (Hz_{\pi })$ är anpassad till $\{{\mathcal {Y}}_{t}^{ 0}\}$ .

I Georgiou och Lindquist föreslogs ett nytt ramverk för separationsprincipen. Detta tillvägagångssätt betraktar stokastiska system som väldefinierade kartor mellan provvägar snarare än mellan stokastiska processer och tillåter oss att utvidga separationsprincipen till system som drivs av martingaler med möjliga hopp. Tillvägagångssättet är motiverat av ingenjörstänkande där system och återkopplingsslingor processsignaler, och inte stokastiska processer i sig eller transformationer av sannolikhetsmått. Därför är syftet att skapa en naturlig klass av tillåtna kontrolllagar som är tekniskt vettiga, inklusive de som är olinjära och diskontinuerliga.

Återkopplingsekvationen $z=z_{0}+g\pi Hz$ har en unik stark lösning om det finns en icke-förutseende funktion $F$ så att $z=F(z_{0})$ uppfyller ekvationen med sannolikhet ett och alla andra lösningar sammanfaller med $z$ med sannolikhet ett. I den samplingsmässiga inställningen krävs dock mer, nämligen att det finns en sådan unik lösning och att $z=z_{0}+g\pi Hz$ gäller för alla $z_{0}$ , inte bara nästan alla. Den resulterande återkopplingsslingan är deterministiskt välpositionerad i den meningen att återkopplingsekvationerna medger en unik lösning som kausalt beror på insignalen för varje ingångssampelväg.

I detta sammanhang definieras en signal som en sampelväg för en stokastisk process med möjliga diskontinuiteter. Närmare bestämt kommer signaler att tillhöra Skorohod-utrymmet $D$ , dvs utrymmet av funktioner som är kontinuerliga till höger och har en vänstergräns på alla punkter ( càdlàg -funktioner). I synnerhet är utrymmet $C$ för kontinuerliga funktioner ett korrekt delutrymme till $D$ . Därför kan svaret på en typisk icke-linjär operation som involverar tröskelvärde och omkoppling modelleras som en signal. Detsamma gäller provbanor för räkneprocesser och andra martingaler. Ett system definieras som en mätbar icke-förutseende karta $D\to D$ som skickar provvägar till provvägar så att deras utdata när som helst $t$ är en mätbar funktion av tidigare värden på ingången och tiden. Till exempel inducerar stokastiska differentialekvationer med Lipschitz-koefficienter drivna av en Wiener-process kartor mellan motsvarande vägrum, se sidan 127 i Rogers och Williams och sidorna 126-128 i Klebaner. Dessutom, under ganska allmänna förhållanden (se t.ex. kapitel V i Protter), har stokastiska differentialekvationer som drivs av martingaler med provbanor i $D$ starka lösningar som är semi-martingaler.

För tidsinställningen ${\displaystyle f(z):=g\pi Hz} ,$ återkopplingssystemet $z=z_{0}+ g\pi Hz$ kan skrivas $z=z_{0}+f(z)$ , där $z_{0}$ kan tolkas som en indata.

Definition. En återkopplingsslinga $z=z_{0}+f(z)$ är deterministiskt välpositionerad om den har en unik lösning $z\in D$ för alla matar in $z_{0}\in D$ och $(1-f)^{-1}$ är ett system.

Detta innebär att processerna $z$ och $z_{0}$ definierar identiska filtreringar. Följaktligen skapas ingen ny information av slingan. Men vad vi behöver är att ${\cal {Y}}_{t}={\cal {Y}}_{t}^{0}$ för ${\ displaystyle 0\leq t\leq T}$ . Detta säkerställs av följande lemma (Lemma 8 i Georgiou och Lindquist).

Nyckellemma. Om återkopplingsslingan $z=z_{0}+g\pi Hz$ är deterministiskt välpositionerad, är $g\pi$ ett system, och ${\ displaystyle H}$ är ett linjärt system med en höger invers $H^{-R}$ som också är ett system, då $(1-Hg\pi ) ^{-1}$ är ett system och ${\cal {Y}}_{t}={\cal {Y}}_{t}^{0}$ för $0\leq t\leq T$ .

Villkoret för $H$ i detta lemma är klart uppfyllt i det linjära stokastiska standardsystemet, för vilket $H=[0,I]$ , och därmed $H^{-R}=H'$ . De återstående villkoren samlas i följande definition.

Definition. En återkopplingslag $\pi$ är deterministiskt välpositionerad för systemet $z=z_{0}+g\pi Hz$ om $g\pi$ är ett system och återkopplingssystemet $z=z_{0}+g\pi Hz$ deterministiskt välpositionerat.

Exempel på enkla system som inte är deterministiskt välpositionerade ges i anmärkning 12 i Georgiou och Lindquist.

En separationsprincip för fysiskt realiserbara kontrolllagar

Genom att endast beakta återkopplingslagar som är deterministiskt välpositionerade, är alla tillåtna styrlagar fysiskt realiserbara i den tekniska meningen att de inducerar en signal som färdas genom återkopplingsslingan. Beviset för följande teorem finns i Georgiou och Lindquist 2013.

Separationssats. Med tanke på det linjära stokastiska systemet

{\begin{aligned}dx&=A(t)x(t)\,dt+B_{1}(t)u(t)\,dt+B_{2}(t)\, dw\\dy&=C(t)x(t)\,dt+D(t)\,dw\end{aligned}}

där $w$ är en vektorvärderad wienerprocess, $x(0)$ är en Gaussisk slumpvektor med nollmedelvärde oberoende av $w$ , överväg problemet med att minimera kvadraten funktionell J(u) över klassen av alla deterministiskt välpositionerade återkopplingslagar $\pi$ . Då ges den unika optimala styrlagen av $u(t)=K(t){\hat {x}}(t)$ där ${\ displaystyle K}$ definieras som ovan och ${\hat {x}}$ ges av Kalman-filtret. Mer generellt, om $w$ är en kvadratintegrerbar martingal och $x(0)$ är ett godtyckligt nollmedelvärde för slumpmässig vektor, $u(t)=K(t){\hat {x}}(t)$ , där ${\displaystyle {\hat {x }}(t)=\operatörsnamn {E} \{x(t)\mid {\cal {Y}}_{t}\}} , är den optimala kontrolllagen förutsatt att den är deterministiskt välpositionerad$ .

I det allmänna icke-Gaussiska fallet, som kan innebära räkneprocesser, måste Kalman-filtret ersättas med ett icke-linjärt filter.

En separationsprincip för fördröjningsdifferentialsystem

Stokastisk kontroll för tidsfördröjningssystem studerades först i Lindquist och Brooks, även om Brooks förlitar sig på det starka antagandet att observationen $y$ är funktionellt oberoende av kontrollen $u$ , och därmed undviker nyckelfrågan av feedback.

Tänk på fördröjningsdifferentialsystemet

{\begin{aligned}dx&=\left(\int _{th}^{t}d_ {s}\,A(t,s)x(s)\höger)\,dt+B_{1}(t)u(t)\,dt+B_{2}(t)\,dw\\dy& =\left(\int _{th}^{t}d_{s}\,C(t,s)x(s)\right)\,dt+D(t)\,dw\end{aligned}}

där $w$ nu är en (kvadratintegrerbar) Gaussisk (vektor) martingal, och där ${\begin{aligned}A\end{aligned}}$ och $C$ är av Begränsad variation i det första argumentet och kontinuerlig till höger i det andra, $x(t)=\xi (t)$ är deterministisk för $- h\leq t\leq 0$ och $y(0)=0$ . Mer exakt, $A(t,s)=0$ för $s\geq t$ , $A(t,s)=A(t,th)$ för $t\leq th$ , och den totala variationen av $s\ mapsto A(t,s)$ begränsas av en integrerbar funktion i variabeln $t$ , och detsamma gäller för $C$ .

Vi vill fastställa en kontrolllag som minimerar

_ displaystyle J(u)=\operatörsnamn {E} \left(\int _{0}^{T}x(t)'Q(t)x(t)\,d\alpha (t)+\int _{ 0}^{T}u(t)'R(t)u(t)\,dt\right),}

där ${\begin{aligned}d\alpha \end{aligned}}$ är ett positivt Stieltjesmått. Det motsvarande deterministiska problemet som erhålls genom att sätta ${\begin{aligned}w=0\end{aligned}}$ ges av

u(t)=\int _{th}^{t}d_{\tau }\,K( t,\tau )x(\tau ),

med ${\begin{aligned}K\end{aligned}}$ .

Följande separationsprincip för fördröjningssystemet ovan finns i Georgiou och Lindquist 2013 och generaliserar motsvarande resultat i Lindquist 1973

Sats. Det finns en unik återkopplingslag ${\begin{aligned}\pi :\,y\mapsto u\end{aligned}}$ i klassen av deterministiskt välpositionerade kontrolllagar som minimerar ${\displaystyle {\begin{aligned}J(u)\end{aligned}}} ,$ och den ges av

u(t)=\int _{th}^{t}d_{s}\, K(t,s){\hat {x}}(s\midt t),

där $K$ är den deterministiska kontrollförstärkningen och ${\hat {x}}(s\midt t):= E\{x(s)\mid {\cal {Y}}_{t}\}$ ges av det linjära (distribuerade) filtret

{\begin{aligned }d{\hat {x}}(t\mid t)&=\int _{th}^{t}d_{s}\,A(t,s){\hat {x}}(s\mid t)\,dt+B_{1}u\,dt+X(t,t)\,dv\\d{\hat {x}}(t\midt t)&=\int _{th}^{ t}d_{s}\,A(t,s){\hat {x}}(s\midt t)\,dt+B_{1}u\,dt+X(t,t)\,dv\ end{aligned}}

där $v$ är innovationsprocessen

dv=dy-\int _{th}^{t }d_{s}C(t,s){\hat {x}}(s\midt t)\,dt,\quad v(0)=0,

och förstärkningen $x$ är som definierad på sidan 120 i Lindquist.

^ ^a ^b ^c ^d ^e ^f ^g ^h ⁱ Tryphon T. Georgiou och Anders Lindquist (2013). "Separationsprincipen i stokastisk kontroll, Redux". IEEE-transaktioner på automatisk kontroll . 58 (10): 2481–2494. arXiv : 1103.3005 . doi : 10.1109/TAC.2013.2259207 . .
^ ^a ^b ^c ^d ^e ^f ^g ^h Anders Lindquist (1973). "Om återkopplingskontroll av linjära stokastiska system". SIAM Journal on Control . 11 (2): 323–343. doi : 10.1137/0311025 . .
^ Karl Johan Aström (1970). Introduktion till Stokastisk kontrollteori . Vol. 58. Akademisk press. ISBN 978-0-486-44531-1 . .
^ ^a ^b A. Bensoussan (1992). Stokastisk kontroll av delvis observerbara system . Cambridge University Press. .
^ Ramon van Handel (2007). Stokastisk beräkning, filtrering och stokastisk kontroll ( PDF) . opublicerade anteckningar.
^ Jan C. Willems. (1978). "Rekursiv filtrering". Statistica Neerlandica . 32 (1): 1–39. doi : 10.1111/j.1467-9574.1978.tb01382.x . .
^ MHA Davis (1978). Linjär uppskattning och stokastisk kontroll . Chapman och Hall. .
^ ^a ^b ^c ^d ^e ^f Anders Lindquist (1973). "Optimal kontroll av linjära stokastiska system med applikationer till fördröjningssystem". Informationsvetenskap . 5 : 81–126. doi : 10.1016/0020-0255(73)90005-4 . .
^ Murray Wonham (1968). "Om separationssatsen för stokastisk kontroll". SIAM J. Kontroll . 6 (2): 312–326. doi : 10.1137/0306023 .
^ WH Fleming och RW Rishel (1968). Deterministisk och stokastisk optimal kontroll . Springer-Verlag. .
^ H. Kushner (1971). Introduktion till stokastisk kontroll . Holt, Rinehart och Winston. .
^ Tyrone Duncan och Pravin Varaiya (1971). "Om lösningarna för ett stokastiskt styrsystem" (PDF) . SIAM J. Kontroll . 9 (3): 354–371. doi : 10.1137/0309026 . hdl : 1808/16692 . .
^ MHA Davis och P. Varaiya (1972). "Informationstillstånd för stokastiska system" . J. Math. Anal. Ansökningar . 37 : 384-402. doi : 10.1016/0022-247X(72)90281-8 . .
^ ^a ^b R.S. Liptser och AN Shirayev (1978). Statistik över slumpmässiga processer II, applikationer . Springer-Verlag. .
^ S. Mitter (1996). "Filtrering och stokastisk kontroll: Ett historiskt perspektiv". IEEE Control Systems Magazine . 13 (3): 67–76. .
^ Rogers, L. Chris G. och David Williams (2000). Diffusioner, Markov-processer och martingaler: Volym 2, Itô-kalkyl . Cambridge University Press. {{ citera bok }} : CS1 underhåll: flera namn: lista över författare ( länk )
^ Klebaner, Fima C. (2012). Introduktion till Stokastisk kalkyl med applikationer . Imperial College Press – via World Scientific Publishing Company.
^ Protter, PE (2004). Stokastisk integration och differentialekvationer . Springer.
^ Anders Lindquist (1968). "På optimal stokastisk kontroll med utjämnad information". Informationsvetenskap . 1 :55–85. doi : 10.1016/0020-0255(68)90007-8 . .
^ Anders Lindquist (1969). "En innovationsstrategi för optimal kontroll av linjära stokastiska system med tidsfördröjning". Informationsvetenskap . 1 (3): 279-295. doi : 10.1016/S0020-0255(69)80014-9 . .
^ R. Brooks (1972). "Linjär stokastisk kontroll: En utökad separationsprincip" . J. Math. Anal. Appl . 38 (3): 569–587. doi : 10.1016/0022-247X(72)90069-8 . .

[GL2013-1] ^ ^a ^b ^c ^d ^e ^f ^g ^h ⁱ Tryphon T. Georgiou och Anders Lindquist (2013). "Separationsprincipen i stokastisk kontroll, Redux". IEEE-transaktioner på automatisk kontroll . 58 (10): 2481–2494. arXiv : 1103.3005 . doi : 10.1109/TAC.2013.2259207 . .

[lindquist-2] ^ ^a ^b ^c ^d ^e ^f ^g ^h Anders Lindquist (1973). "Om återkopplingskontroll av linjära stokastiska system". SIAM Journal on Control . 11 (2): 323–343. doi : 10.1137/0311025 . .

[astrom-3] Karl Johan Aström (1970). Introduktion till Stokastisk kontrollteori . Vol. 58. Akademisk press. ISBN 978-0-486-44531-1 . .

[Bensoussan-4] A. Bensoussan (1992). Stokastisk kontroll av delvis observerbara system . Cambridge University Press. .

[vanHandel-5] Ramon van Handel (2007). Stokastisk beräkning, filtrering och stokastisk kontroll ( PDF) . opublicerade anteckningar.

[Willems78-6] Jan C. Willems. (1978). "Rekursiv filtrering". Statistica Neerlandica . 32 (1): 1–39. doi : 10.1111/j.1467-9574.1978.tb01382.x . .

[Davis-7] MHA Davis (1978). Linjär uppskattning och stokastisk kontroll . Chapman och Hall. .

[lindquist1-8] ^ ^a ^b ^c ^d ^e ^f Anders Lindquist (1973). "Optimal kontroll av linjära stokastiska system med applikationer till fördröjningssystem". Informationsvetenskap . 5 : 81–126. doi : 10.1016/0020-0255(73)90005-4 . .

[Wonham-9] Murray Wonham (1968). "Om separationssatsen för stokastisk kontroll". SIAM J. Kontroll . 6 (2): 312–326. doi : 10.1137/0306023 .

[FlemingRishel-10] WH Fleming och RW Rishel (1968). Deterministisk och stokastisk optimal kontroll . Springer-Verlag. .

[Kushner-11] H. Kushner (1971). Introduktion till stokastisk kontroll . Holt, Rinehart och Winston. .

[duncanvaraiya-12] Tyrone Duncan och Pravin Varaiya (1971). "Om lösningarna för ett stokastiskt styrsystem" (PDF) . SIAM J. Kontroll . 9 (3): 354–371. doi : 10.1137/0309026 . hdl : 1808/16692 . .

[davisvaraiya-13] MHA Davis och P. Varaiya (1972). "Informationstillstånd för stokastiska system" . J. Math. Anal. Ansökningar . 37 : 384-402. doi : 10.1016/0022-247X(72)90281-8 . .

[LipsterShirayev-14] R.S. Liptser och AN Shirayev (1978). Statistik över slumpmässiga processer II, applikationer . Springer-Verlag. .

[mitter-15] S. Mitter (1996). "Filtrering och stokastisk kontroll: Ett historiskt perspektiv". IEEE Control Systems Magazine . 13 (3): 67–76. .

[RogersWilliams-16] Rogers, L. Chris G. och David Williams (2000). Diffusioner, Markov-processer och martingaler: Volym 2, Itô-kalkyl . Cambridge University Press. {{ citera bok }} : CS1 underhåll: flera namn: lista över författare ( länk )

[Klebaner-17] Klebaner, Fima C. (2012). Introduktion till Stokastisk kalkyl med applikationer . Imperial College Press – via World Scientific Publishing Company.

[Protter-18] Protter, PE (2004). Stokastisk integration och differentialekvationer . Springer.

[L68-19] Anders Lindquist (1968). "På optimal stokastisk kontroll med utjämnad information". Informationsvetenskap . 1 :55–85. doi : 10.1016/0020-0255(68)90007-8 . .

[L69-20] Anders Lindquist (1969). "En innovationsstrategi för optimal kontroll av linjära stokastiska system med tidsfördröjning". Informationsvetenskap . 1 (3): 279-295. doi : 10.1016/S0020-0255(69)80014-9 . .

[Brooks-21] R. Brooks (1972). "Linjär stokastisk kontroll: En utökad separationsprincip" . J. Math. Anal. Appl . 38 (3): 569–587. doi : 10.1016/0022-247X(72)90069-8 . .