Gittins index

Gittins index är ett mått på den belöning som kan uppnås genom en given stokastisk process med vissa egenskaper, nämligen: processen har ett slutgiltigt avslutningstillstånd och utvecklas med ett alternativ, vid varje mellanliggande tillstånd, att avsluta. Vid terminering vid ett givet tillstånd är den erhållna belöningen summan av de probabilistiska förväntade belöningarna som är associerade med varje tillstånd från det faktiska avslutande tillståndet till det slutliga terminaltillståndet, inklusive. Indexet är en riktig skalär .

Terminologi

För att illustrera teorin kan vi ta två exempel från en utvecklingssektor, till exempel från elgenererande teknologier: vindkraft och vågkraft. Om vi ​​presenteras för de två teknologierna när de båda föreslås som idéer kan vi inte säga vilken som kommer att vara bättre i det långa loppet eftersom vi ännu inte har några data att basera våra bedömningar på. Det skulle vara lätt att säga att vågkraften skulle vara för problematisk att utveckla då det verkar lättare att sätta upp många vindkraftverk än att göra de långa flytande generatorerna, bogsera ut dem till havs och lägga de kablar som behövs.

Om vi ​​skulle göra en bedömning vid den tidiga utvecklingsfasen skulle vi kunna döma en teknik till att läggas på hyllan och den andra skulle utvecklas och tas i drift. Om vi ​​utvecklar båda teknologierna skulle vi kunna göra en bedömning av var och en genom att jämföra framstegen för varje teknik vid ett visst tidsintervall, till exempel var tredje månad. De beslut vi fattar om investeringar i nästa steg skulle baseras på dessa resultat.

I en artikel 1979 som heter Bandit Processes and Dynamic Allocation Index föreslår John C. Gittins en lösning på problem som detta. Han tar de två grundläggande funktionerna i ett " schemaläggningsproblem " och ett " flerarmad bandit "-problem och visar hur dessa problem kan lösas med hjälp av dynamiska allokeringsindex . Han tar först "Schemaläggningsproblemet" och reducerar det till en maskin som måste utföra jobb och som har en bestämd tidsperiod, till exempel varje timme eller dag, för att avsluta varje jobb i. Maskinen får ett belöningsvärde, baserat på efterbehandling eller inte inom tidsperioden, och ett sannolikhetsvärde för om det kommer att slutföras eller inte för varje jobb beräknas. Problemet är "att bestämma vilket jobb som ska bearbetas härnäst i varje steg för att maximera den totala förväntade belöningen." Han går sedan vidare till "Multi-armed bandit problem" där varje drag på en " en armed bandit " spak tilldelas en belöningsfunktion för ett lyckat drag och en noll belöning för ett misslyckat drag. Sekvensen av framgångar bildar en Bernoulli-process och har en okänd sannolikhet för framgång. Det finns flera "banditer" och fördelningen av framgångsrika drag är beräknad och olika för varje maskin. Gittins säger att problemet här är "att bestämma vilken arm som ska dras härnäst i varje steg för att maximera den totala förväntade belöningen från en oändlig sekvens av drag."

Gittins säger att "Båda problemen som beskrivs ovan involverar en sekvens av beslut, som var och en är baserad på mer information än sina föregångare, och dessa båda problem kan hanteras av dynamiska allokeringsindex."

Definition

Inom tillämpad matematik är "Gittins index" ett verkligt skalärt värde som är associerat med tillståndet för en stokastisk process med en belöningsfunktion och med sannolikhet för uppsägning. Det är ett mått på belöningen som kan uppnås genom att processen utvecklas från det tillståndet och med sannolikheten att den kommer att avslutas i framtiden. "Indexpolicyn" som induceras av Gittins index, som består av att när som helst välja den stokastiska processen med det för närvarande högsta Gittins indexet, är lösningen på några stoppande problem , såsom det med dynamisk allokering, där en beslutsfattare måste maximera den totala belöningen genom att dela ut en begränsad mängd ansträngning till ett antal konkurrerande projekt, som vart och ett ger en stokastisk belöning. Om projekten är oberoende av varandra och endast ett projekt åt gången kan utvecklas, kallas problemet multi-armed bandit (en typ av Stokastiska schemaläggningsproblem ) och Gittins indexpolicy är optimal. Om flera projekt kan utvecklas kallas problemet Restless bandit och Gittins indexpolicy är en känd bra heuristik men ingen optimal lösning finns i allmänhet. I själva verket är detta problem i allmänhet NP-komplett och det är allmänt accepterat att ingen genomförbar lösning kan hittas.

Historia

Frågor om den optimala stopppolicyn i samband med kliniska prövningar har varit öppna från 1940-talet och på 1960-talet analyserade några författare enkla modeller som ledde till optimal indexpolicy, men det var först på 1970-talet som Gittins och hans medarbetare demonstrerade i en Markovian ramverket att den optimala lösningen i det allmänna fallet är en indexpolicy vars "dynamiska allokeringsindex" i princip kan beräknas för varje tillstånd i varje projekt som en funktion av det enskilda projektets dynamik. Parallellt med Gittins Martin Weitzman samma resultat i den ekonomiska litteraturen.

Strax efter Gittins banbrytande uppsats visade Peter Whittle att indexet uppstår som en Lagrange-multiplikator från en dynamisk programmeringsformulering av problemet som kallas retirement process och förmodade att samma index skulle vara en bra heuristik i en mer allmän uppsättning som heter Restless bandit . Frågan om hur man faktiskt beräknar index för Markov-kedjor togs först upp av Varaiya och hans medarbetare med en algoritm som beräknar indexen från de största först ner till de minsta och av Chen och Katehakis som visade att standard LP kunde användas för att beräkna indexet för ett tillstånd utan att kräva dess beräkning för alla tillstånd med högre indexvärden. LCM Kallenberg tillhandahöll en parametrisk LP-implementering för att beräkna indexen för alla tillstånd i en Markov-kedja. Vidare visade Katehakis och Veinott att indexet är den förväntade belöningen av en Markov-beslutsprocess konstruerad över Markov-kedjan och känd som Restart in State och kan beräknas exakt genom att lösa det problemet med policy iteration- algoritmen, eller ungefär med värde-iterationen algoritm. Detta tillvägagångssätt har också fördelen av att beräkna indexet för ett specifikt tillstånd utan att behöva beräkna alla de större indexen och det är giltigt under mer allmänna tillståndsutrymmesförhållanden. En snabbare algoritm för beräkning av alla index erhölls 2004 av Sonin som en konsekvens av hans elimineringsalgoritm för optimalt stopp av en Markov-kedja. I denna algoritm kan avslutningssannolikheten för processen bero på det aktuella tillståndet snarare än att vara en fast faktor. En snabbare algoritm föreslogs 2007 av Niño-Mora genom att utnyttja strukturen i ett parametriskt simplex för att minska beräkningsansträngningen för pivotstegen och därigenom uppnå samma komplexitet som den Gaussiska elimineringsalgoritmen . Cowan, W. och Katehakis (2014), tillhandahåller en lösning på problemet, med potentiellt icke-markovska, oräkneliga statliga belöningsprocesser, under ramar där antingen rabattfaktorerna kan vara olikformiga och variera över tiden, eller Aktiveringsperioderna för varje bandit kan inte vara fasta eller enhetliga, utan i stället för en eventuellt stokastisk aktiveringstid innan en byte till en annan bandit tillåts. Lösningen är baserad på generaliserade omstart-i-tillstånd-index.

Matematisk definition

Dynamiskt allokeringsindex

Den klassiska definitionen av Gittins et al. är:

där är en stokastisk process, är verktyget (även kallat belöning) som är associerat med det diskreta tillståndet , är sannolikheten att den stokastiska processen inte avslutas, och är den villkorliga förväntansoperatorn given c :

där är domänen för X .

Formulering av pensionsprocessen

Den dynamiska programmeringsformuleringen i termer av pensioneringsprocessen, som ges av Whittle, är:

där är värdefunktionen

med samma notation som ovan. Det håller det

Omstart-in-state formulering

Om är en Markov-kedja med belöningar, associerar tolkningen av Katehakis och Veinott (1987) till varje tillstånd åtgärden att starta om från ett godtyckligt tillstånd , och därmed konstruera en Markov-beslutsprocess .

Gittins Index för det tillståndet är den högsta totala belöningen som kan uppnås på om man alltid kan välja att fortsätta eller starta om från det tillståndet .

där indikerar en policy över . Det håller det

.

Generaliserat index

Om sannolikheten för överlevnad beror på tillståndet , definierar en generalisering introducerad av Sonin (2008) Gittins index som den maximala rabatterade totala belöningen per chans till uppsägning.

var

Om ersätts med i definitionerna av , och , sedan det håller det

denna observation får Sonin att dra slutsatsen att och inte är den "sanna betydelsen" av Gittins index.

Köteori

I köteorin används Gittins index för att bestämma den optimala schemaläggningen av jobb, t.ex. i en M/G/1-kö. Den genomsnittliga slutförandetiden för jobb under ett Gittins indexschema kan bestämmas med SOAP-metoden. Observera att dynamiken i kön i sig är markovisk och stokasticitet beror på ankomst- och serviceprocesserna. Detta i motsats till de flesta verk i lärandelitteraturen, där stokasticitet uttryckligen redovisas genom en brusterm.

Bråkproblem

Medan konventionella Gittins-index framkallar en policy för att optimera ackumuleringen av en belöning, består en vanlig problemställning av att optimera förhållandet mellan ackumulerade belöningar. Detta är till exempel ett fall för system att maximera bandbredden, bestående av data över tid, eller minimera strömförbrukningen, bestående av energi över tiden.

Denna klass av problem skiljer sig från optimeringen av en semi-Markov belöningsprocess, eftersom den senare kan välja stater med en oproportionerlig vistelsetid bara för att få en högre belöning. Istället motsvarar det klassen av linjär-fraktionell markov-belöningsoptimeringsproblem.

En skadlig aspekt av sådana kvotoptimeringar är emellertid att, när väl det uppnådda förhållandet i något tillstånd är högt, kan optimeringen välja tillstånd som leder till ett lågt förhållande eftersom de har en hög sannolikhet för avslutning, så att processen sannolikt avslutas innan förhållandet sjunker avsevärt. En probleminställning för att förhindra sådana tidiga uppsägningar består av att definiera optimeringen som maximering av det framtida förhållandet som varje stat ser. En indexering förmodas existera för detta problem, vara beräkningsbar som enkel variation på befintliga omstart-i-tillstånd eller tillståndselimineringsalgoritmer och utvärderas för att fungera bra i praktiken.

Anteckningar

  1. ^ a b c d   Cowan, Robin (juli 1991). "Sköldpaddor och harar: val bland teknologier av okända meriter". The Economic Journal . 101 (407): 801–814. doi : 10.2307/2233856 . JSTOR 2233856 .
  2. ^ a b c   Gittins, JC (1979). "Banditprocesser och dynamiska allokeringsindex". Journal of the Royal Statistical Society. Serie B (metodologisk) . 41 (2): 148–177. doi : 10.1111/j.2517-6161.1979.tb01068.x . JSTOR 2985029 .
  3. ^ Mitten L (1960). "En analytisk lösning på problemet med minsta kostnadstestningssekvens". Journal of Industrial Engineering . 11 (1): 17.
  4. ^   Gittins, JC; Jones, DM (1979). "Ett dynamiskt tilldelningsindex för det rabatterade flerarmade banditproblemet". Biometrika . 66 (3): 561–565. doi : 10.2307/2335176 . JSTOR 2335176 .
  5. ^   Weitzman, Martin L. (1979). "Optimalt sökande efter det bästa alternativet". Econometrica . 47 (3): 641–654. doi : 10.2307/1910412 . hdl : 1721.1/31303 . JSTOR 1910412 .
  6. ^ Whittle, Peter (1980). "Multi-armed Bandits and the Gittins Index". Journal of the Royal Statistical Society, Series B . 42 (2): 143–149.
  7. ^ Varaiya, P.; Walrand, J.; Buyukkoc, C. (maj 1985). "Extensions of the multiarmed bandit problem: The discounted case". IEEE-transaktioner på automatisk kontroll . 30 (5): 426–439. doi : 10.1109/TAC.1985.1103989 .
  8. ^ Chen YR, Katehakis MN (1986). "Linjär programmering för flerarmade banditproblem i finita tillstånd". Matematik. Oper. Res . 11 (1): 180–183. doi : 10.1287/moor.11.1.180 .
  9. ^ Kallenberg LCM (1986). "En anteckning om MN Katehakis och Y.-R. Chens beräkning av Gittins Index". Matematik. Oper. Res . 11 (1): 184–186. doi : 10.1287/moor.11.1.184 .
  10. ^ Katehakis M., Veinott A. (1987). "Det flerarmade banditproblemet: nedbrytning och beräkning". Matematik. Oper. Res . 12 (2): 262–268. doi : 10.1287/moor.12.2.262 .
  11. ^ Sonin I (2008). "Ett generaliserat Gittins-index för en Markov-kedja och dess rekursiva beräkning". Statistik och sannolikhetsbrev . 78 (12): 1526–1533. doi : 10.1016/j.spl.2008.01.049 .
  12. ^   Ni, Mora J (2007). "En (2/3)^n snabbsvängande algoritm för Gittins Index och optimalt stoppande av en Markov-kedja". INFORMERAR Journal on Computing . 19 (4): 596–606. CiteSeerX 10.1.1.77.5127 . doi : 10.1287/ijoc.1060.0206 .
  13. ^ Cowan, Wesley; Katehakis, Michael N. (januari 2015). "Flerbeväpnade banditer under allmän avskrivning och engagemang" . Sannolikhet inom ingenjörs- och informationsvetenskap . 29 (1): 51–76. doi : 10.1017/S0269964814000217 .
  14. ^   Scully, Ziv och Harchol-Balter, Mor och Scheller-Wolf, Alan (2018). "SOAP: En ren analys av alla åldersbaserade schemaläggningspolicyer". Proceedings of the ACM on Measurement and Analysis of Computing Systems . ACM. 2 (1): 16. doi : 10.1145/3179419 . S2CID 216145213 . {{ citera tidskrift }} : CS1 underhåll: flera namn: lista över författare ( länk )
  15. ^ Di Gregorio, Lorenzo och Frascolla, Valerio (1 oktober 2019). Överlämningsoptimalitet i heterogena nätverk . 5G World Forum . arXiv : 1908.09991v2 . {{ citera konferens }} : CS1 underhåll: flera namn: lista över författare ( länk )

externa länkar

  • [1] Matlab/Octave-implementering av indexberäkningsalgoritmerna
  •   Cowan, Robin (1991). "Sköldpaddor och harar: val bland tekniker av okända förtjänster". The Economic Journal . 101 (407): 801–814. doi : 10.2307/2233856 . JSTOR 2233856 .