Separationsprincip vid stokastisk kontroll
Separationsprincipen är en av de grundläggande principerna för stokastisk kontrollteorin , som säger att problemen med optimal kontroll och tillståndsuppskattning kan frikopplas under vissa förhållanden . I sin mest grundläggande formulering handlar det om ett linjärt stokastiskt system
med en tillståndsprocess , en utdataprocess och en kontroll , där är en vektorvärderad wienerprocess , gaussisk slumpvektor med nollmedelvärde oberoende av , , och , , , , är funktioner med matrisvärde som i allmänhet anses vara kontinuerliga av begränsad variation. Dessutom ickesingular på något intervall , Problemet är att utforma en utgående feedbacklag som mappar den observerade processen till styringången i en icke-förutseende sätt för att minimera det funktionella
där anger förväntat värde, primtal ( ) anger transponera. och och är kontinuerliga matrisfunktioner av begränsad variation, är positiv semidefinitiv och är positivt definitivt för alla . Under lämpliga förhållanden, som måste anges korrekt, kan den optimala policyn väljas i formuläret
där är den linjära minsta kvadratiska uppskattningen av tillståndsvektorn erhållen från Kalman-filtret
där är förstärkningen för den optimala linjär-kvadratiska regulatorn som erhålls genom att ta och deterministiskt , och där är Kalman-förstärkningen . Det finns även en icke-Gaussisk version av detta problem (som diskuteras nedan) där Wienerprocessen ersätts av en mer allmän kvadratisk integrerbar martingal med möjliga hopp. I det här fallet måste Kalman-filtret ersättas av ett icke-linjärt filter som ger en uppskattning av det (strikt bemärkta) villkorliga medelvärdet
var
är den filtrering som genereras av utmatningsprocessen; dvs familjen av ökande sigmafält som representerar data när den produceras.
I den tidiga litteraturen om separationsprincipen var det vanligt att tillåta som tillåtna kontroller alla processer som är anpassade till filtreringen . Detta motsvarar att tillåta alla icke-föregripande Borel-funktioner som återkopplingslagar, vilket väcker frågan om existensen av en unik lösning på återkopplingsslingans ekvationer. Dessutom måste man utesluta möjligheten att en icke-linjär registeransvarig extraherar mer information från uppgifterna än vad som är möjligt med en linjär kontrolllag.
Val av klassen av tillåtna kontrolllagar
Linjär-kvadratisk kontrollproblem löses ofta med ett argument för komplettering av kvadrater. I vårt nuvarande sammanhang har vi
där den första termen har formen
där är kovariansmatrisen
Separationsprincipen skulle nu följa omedelbart om var oberoende av kontrollen. Detta måste dock fastställas.
Tillståndsekvationen kan integreras för att ta formen
där är tillståndsprocessen som erhålls genom att sätta och är övergångsmatrisfunktionen. Genom linjäritet, är lika med
där . Följaktligen,
men vi måste fastställa att inte beror på kontrollen. Detta skulle vara fallet om
där är utdataprocessen som erhålls genom att ställa in . Denna fråga diskuterades ingående av Lindquist. Faktum är att eftersom kontrollprocessen i allmänhet är en icke-linjär funktion av data och därmed icke-Gaussisk, så är utmatningsprocessen . För att undvika dessa problem kan man börja med att koppla bort återkopplingsslingan och bestämma en optimal styrprocess i klassen av stokastiska processer som är anpassade till familjen av sigma-fält. Detta problem, där man optimerar över klassen av alla styrprocesser anpassade till en fast filtrering, kallas ett stokastiskt open loop (SOL) problem . Det är inte ovanligt i litteraturen att från början anta att kontrollen är anpassad till ; se t.ex. avsnitt 2.3 i Bensoussan, även van Handel och Willems.
I Lindquist 1973 föreslogs ett förfarande för hur man på ett problemberoende sätt kan inbädda klassen av tillåtna kontroller i olika SOL-klasser och sedan konstruera motsvarande återkopplingslag. Den största klassen av tillåtna återkopplingslagar består av de icke-anticiperande funktionerna så att feedbackekvationen har en unik lösning och motsvarande styrprocess är anpassad till . Därefter ger vi några exempel på specifika klasser av återkopplingslagar som tillhör denna allmänna klass, såväl som några andra strategier i litteraturen för att övervinna de ovan beskrivna problemen.
Linjära kontrolllagar
Den tillåtna klassen av kontrolllagar skulle kunna begränsas till att endast innehålla vissa linjära sådana som i Davis. Mer allmänt den linjära klassen
där är en deterministisk funktion och är en kärna, säkerställer att är oberoende av kontrollen. Faktum är att den Gaussiska egenskapen då kommer att bevaras, och kommer att genereras av Kalman-filtret. Då genereras felprocessen
vilket är klart oberoende av valet av styrning, och sålunda är .
Lipschitz-kontinuerliga kontrolllagar
Wonham bevisade ett separationsteorem för kontroller i klassen , även för en mer allmän kostnadsfunktion än J(u). Beviset är dock långt ifrån enkelt och det finns många tekniska antaganden. Till exempel kvadratisk och ha en determinant avgränsad från noll, vilket är en allvarlig begränsning. Ett senare bevis av Fleming och Rishel är betydligt enklare. De bevisar också separationssatsen med kvadratisk kostnad funktionell för en klass av Lipschitz kontinuerliga återkopplingslagar, nämligen , där är en icke-anticiperande funktion av som är Lipschitz kontinuerlig i detta argument. Kushner föreslog en mer begränsad klass där modifierad tillståndsprocess ges av
leder till identiteten .
Imponerande försening
Om det finns en fördröjning i behandlingen av de observerade data så att för varje u en funktion av då , , se exempel 3 i Georgiou och Lindquist. Följaktligen oberoende av kontrollen. Ändå måste styrpolicyn vara sådan att återkopplingsekvationerna har en unik lösning.
Följaktligen uppstår inte problemet med eventuellt kontrollberoende sigmafält i den vanliga tidsdiskreta formuleringen. En procedur som används i flera läroböcker för att konstruera den kontinuerliga tiden som gränsen för ändliga skillnadskvotienter för den diskreta tiden som inte beror på kontrollen, är cirkulär eller en bästa ofullständig; se anmärkning 4 i Georgiou och Lindquist.
Svaga lösningar
Ett tillvägagångssätt introducerat av Duncan och Varaiya och Davis och Varaiya, se även avsnitt 2.4 i Bensoussan är baserat på svaga lösningar av den stokastiska differentialekvationen. Med tanke på sådana lösningar av
vi kan ändra sannolikhetsmåttet (som beror på via en Girsanov- transformation så att
blir en ny Wienerprocess, som (under det nya sannolikhetsmåttet) kan antas vara opåverkad av kontrollen. Frågan om hur detta skulle kunna implementeras i ett ingenjörssystem lämnas öppen.
Icke-linjära filtreringslösningar
Även om en icke-linjär kontrolllag kommer att producera en icke-Gaussisk tillståndsprocess, kan det visas, med hjälp av icke-linjär filtreringsteori (kapitel 16.1 i Lipster och Shirayev ), att tillståndsprocessen är villkorligt Gaussisk givet filtreringen . Detta faktum kan användas för att visa att faktiskt genereras av ett Kalman-filter (se kapitel 11 och 12 i Lipster och Shirayev ). Detta kräver dock en ganska sofistikerad analys och är begränsad till fallet där körljudet är en wienerprocess.
Ytterligare historiskt perspektiv finns i Mitter.
Frågor om återkoppling i linjära stokastiska system
Vid denna tidpunkt är det lämpligt att överväga en mer allmän klass av kontrollerade linjära stokastiska system som även omfattar system med tidsfördröjningar, nämligen
med en stokastisk vektorprocess som inte är beroende av kontrollen. Standard stokastiska systemet erhålls sedan som ett specialfall där , och . Vi ska använda den korta notationen
för återkopplingssystemet, var
är en Volterra-operatör.
I denna mer allmänna formulering definierar Lindquists inbäddningsprocedure klassen av tillåtna återkopplingslagar som klassen av icke-förutseende funktioner så att återkopplingsekvationen har en unik lösning och är anpassad till .
I Georgiou och Lindquist föreslogs ett nytt ramverk för separationsprincipen. Detta tillvägagångssätt betraktar stokastiska system som väldefinierade kartor mellan provvägar snarare än mellan stokastiska processer och tillåter oss att utvidga separationsprincipen till system som drivs av martingaler med möjliga hopp. Tillvägagångssättet är motiverat av ingenjörstänkande där system och återkopplingsslingor processsignaler, och inte stokastiska processer i sig eller transformationer av sannolikhetsmått. Därför är syftet att skapa en naturlig klass av tillåtna kontrolllagar som är tekniskt vettiga, inklusive de som är olinjära och diskontinuerliga.
Återkopplingsekvationen har en unik stark lösning om det finns en icke-förutseende funktion så att uppfyller ekvationen med sannolikhet ett och alla andra lösningar sammanfaller med med sannolikhet ett. I den samplingsmässiga inställningen krävs dock mer, nämligen att det finns en sådan unik lösning och att gäller för alla , inte bara nästan alla. Den resulterande återkopplingsslingan är deterministiskt välpositionerad i den meningen att återkopplingsekvationerna medger en unik lösning som kausalt beror på insignalen för varje ingångssampelväg.
I detta sammanhang definieras en signal som en sampelväg för en stokastisk process med möjliga diskontinuiteter. Närmare bestämt kommer signaler att tillhöra Skorohod-utrymmet , dvs utrymmet av funktioner som är kontinuerliga till höger och har en vänstergräns på alla punkter ( càdlàg -funktioner). I synnerhet är utrymmet för kontinuerliga funktioner ett korrekt delutrymme till . Därför kan svaret på en typisk icke-linjär operation som involverar tröskelvärde och omkoppling modelleras som en signal. Detsamma gäller provbanor för räkneprocesser och andra martingaler. Ett system definieras som en mätbar icke-förutseende karta som skickar provvägar till provvägar så att deras utdata när som helst är en mätbar funktion av tidigare värden på ingången och tiden. Till exempel inducerar stokastiska differentialekvationer med Lipschitz-koefficienter drivna av en Wiener-process kartor mellan motsvarande vägrum, se sidan 127 i Rogers och Williams och sidorna 126-128 i Klebaner. Dessutom, under ganska allmänna förhållanden (se t.ex. kapitel V i Protter), har stokastiska differentialekvationer som drivs av martingaler med provbanor i starka lösningar som är semi-martingaler.
För tidsinställningen återkopplingssystemet kan skrivas , där kan tolkas som en indata.
Definition. En återkopplingsslinga är deterministiskt välpositionerad om den har en unik lösning för alla matar in och är ett system.
Detta innebär att processerna och definierar identiska filtreringar. Följaktligen skapas ingen ny information av slingan. Men vad vi behöver är att för . Detta säkerställs av följande lemma (Lemma 8 i Georgiou och Lindquist).
Nyckellemma. Om återkopplingsslingan är deterministiskt välpositionerad, är ett system, och är ett linjärt system med en höger invers som också är ett system, då är ett system och för .
Villkoret för i detta lemma är klart uppfyllt i det linjära stokastiska standardsystemet, för vilket , och därmed . De återstående villkoren samlas i följande definition.
Definition. En återkopplingslag är deterministiskt välpositionerad för systemet om är ett system och återkopplingssystemet deterministiskt välpositionerat.
Exempel på enkla system som inte är deterministiskt välpositionerade ges i anmärkning 12 i Georgiou och Lindquist.
En separationsprincip för fysiskt realiserbara kontrolllagar
Genom att endast beakta återkopplingslagar som är deterministiskt välpositionerade, är alla tillåtna styrlagar fysiskt realiserbara i den tekniska meningen att de inducerar en signal som färdas genom återkopplingsslingan. Beviset för följande teorem finns i Georgiou och Lindquist 2013.
Separationssats. Med tanke på det linjära stokastiska systemet
där är en vektorvärderad wienerprocess, är en Gaussisk slumpvektor med nollmedelvärde oberoende av , överväg problemet med att minimera kvadraten funktionell J(u) över klassen av alla deterministiskt välpositionerade återkopplingslagar . Då ges den unika optimala styrlagen av där definieras som ovan och ges av Kalman-filtret. Mer generellt, om är en kvadratintegrerbar martingal och är ett godtyckligt nollmedelvärde för slumpmässig vektor, , där .
I det allmänna icke-Gaussiska fallet, som kan innebära räkneprocesser, måste Kalman-filtret ersättas med ett icke-linjärt filter.
En separationsprincip för fördröjningsdifferentialsystem
Stokastisk kontroll för tidsfördröjningssystem studerades först i Lindquist och Brooks, även om Brooks förlitar sig på det starka antagandet att observationen är funktionellt oberoende av kontrollen , och därmed undviker nyckelfrågan av feedback.
Tänk på fördröjningsdifferentialsystemet
där nu är en (kvadratintegrerbar) Gaussisk (vektor) martingal, och där och är av Begränsad variation i det första argumentet och kontinuerlig till höger i det andra, är deterministisk för och . Mer exakt, för , för , och den totala variationen av begränsas av en integrerbar funktion i variabeln , och detsamma gäller för .
Vi vill fastställa en kontrolllag som minimerar
där är ett positivt Stieltjesmått. Det motsvarande deterministiska problemet som erhålls genom att sätta ges av
med .
Följande separationsprincip för fördröjningssystemet ovan finns i Georgiou och Lindquist 2013 och generaliserar motsvarande resultat i Lindquist 1973
Sats. Det finns en unik återkopplingslag i klassen av deterministiskt välpositionerade kontrolllagar som minimerar och den ges av
där är den deterministiska kontrollförstärkningen och ges av det linjära (distribuerade) filtret
där är innovationsprocessen
och förstärkningen är som definierad på sidan 120 i Lindquist.
- ^ a b c d e f g h i Tryphon T. Georgiou och Anders Lindquist (2013). "Separationsprincipen i stokastisk kontroll, Redux". IEEE-transaktioner på automatisk kontroll . 58 (10): 2481–2494. arXiv : 1103.3005 . doi : 10.1109/TAC.2013.2259207 . .
- ^ a b c d e f g h Anders Lindquist (1973). "Om återkopplingskontroll av linjära stokastiska system". SIAM Journal on Control . 11 (2): 323–343. doi : 10.1137/0311025 . .
- ^ Karl Johan Aström (1970). Introduktion till Stokastisk kontrollteori . Vol. 58. Akademisk press. ISBN 978-0-486-44531-1 . .
- ^ a b A. Bensoussan (1992). Stokastisk kontroll av delvis observerbara system . Cambridge University Press. .
- ^ Ramon van Handel (2007). Stokastisk beräkning, filtrering och stokastisk kontroll ( PDF) . opublicerade anteckningar.
- ^ Jan C. Willems. (1978). "Rekursiv filtrering". Statistica Neerlandica . 32 (1): 1–39. doi : 10.1111/j.1467-9574.1978.tb01382.x . .
- ^ MHA Davis (1978). Linjär uppskattning och stokastisk kontroll . Chapman och Hall. .
- ^ a b c d e f Anders Lindquist (1973). "Optimal kontroll av linjära stokastiska system med applikationer till fördröjningssystem". Informationsvetenskap . 5 : 81–126. doi : 10.1016/0020-0255(73)90005-4 . .
- ^ Murray Wonham (1968). "Om separationssatsen för stokastisk kontroll". SIAM J. Kontroll . 6 (2): 312–326. doi : 10.1137/0306023 .
- ^ WH Fleming och RW Rishel (1968). Deterministisk och stokastisk optimal kontroll . Springer-Verlag. .
- ^ H. Kushner (1971). Introduktion till stokastisk kontroll . Holt, Rinehart och Winston. .
- ^ Tyrone Duncan och Pravin Varaiya (1971). "Om lösningarna för ett stokastiskt styrsystem" (PDF) . SIAM J. Kontroll . 9 (3): 354–371. doi : 10.1137/0309026 . hdl : 1808/16692 . .
- ^ MHA Davis och P. Varaiya (1972). "Informationstillstånd för stokastiska system" . J. Math. Anal. Ansökningar . 37 : 384-402. doi : 10.1016/0022-247X(72)90281-8 . .
- ^ a b R.S. Liptser och AN Shirayev (1978). Statistik över slumpmässiga processer II, applikationer . Springer-Verlag. .
- ^ S. Mitter (1996). "Filtrering och stokastisk kontroll: Ett historiskt perspektiv". IEEE Control Systems Magazine . 13 (3): 67–76. .
-
^
Rogers, L. Chris G. och David Williams (2000). Diffusioner, Markov-processer och martingaler: Volym 2, Itô-kalkyl . Cambridge University Press.
{{ citera bok }}
: CS1 underhåll: flera namn: lista över författare ( länk ) - ^ Klebaner, Fima C. (2012). Introduktion till Stokastisk kalkyl med applikationer . Imperial College Press – via World Scientific Publishing Company.
- ^ Protter, PE (2004). Stokastisk integration och differentialekvationer . Springer.
- ^ Anders Lindquist (1968). "På optimal stokastisk kontroll med utjämnad information". Informationsvetenskap . 1 :55–85. doi : 10.1016/0020-0255(68)90007-8 . .
- ^ Anders Lindquist (1969). "En innovationsstrategi för optimal kontroll av linjära stokastiska system med tidsfördröjning". Informationsvetenskap . 1 (3): 279-295. doi : 10.1016/S0020-0255(69)80014-9 . .
- ^ R. Brooks (1972). "Linjär stokastisk kontroll: En utökad separationsprincip" . J. Math. Anal. Appl . 38 (3): 569–587. doi : 10.1016/0022-247X(72)90069-8 . .