Belöningsbaserat urval

Belöningsbaserat urval är en teknik som används i evolutionära algoritmer för att välja potentiellt användbara lösningar för rekombination. Sannolikheten att bli utvald för en individ är proportionell mot den kumulativa belöningen som individen erhåller. Den kumulativa belöningen kan beräknas som summan av den individuella belöningen och belöningen, som ärvts från föräldrarna.

Beskrivning

Belöningsbaserat urval kan användas inom Multi-armed bandit- ramverket för multi-objektiv optimering för att få en bättre approximation av Pareto-fronten .

Den nyfödda $a'^{(g+1)}$ och dess föräldrar får en belöning $r^{(g)}$ , om $a'^{(g+1)}$ valdes för ny population $Q^{(g+1)}$ , annars är belöningen noll. Flera belöningsdefinitioner är möjliga:

1. $r^{(g)}=1$ , om den nyfödda individen $a'^{(g+1)}$ valdes för ny population $Q^{(g+1)}$ .
2. $r^{(g)}=1 -{\frac {rank(a'^{(g+1)})}{\mu }}{\mbox{ if }}a'^{(g+1)}\in Q^{(g+1 )}$ , där $rank(a'^{(g+1)})$ är rangordningen för nyligen införd individ i populationen av $\mu$ individer. Rang kan beräknas med hjälp av en välkänd icke-dominerad sorteringsprocedur.
3. $r ^{(g)}=\summa _{a\in Q^{(g+1)}}\Delta {H}(a,Q^{(g+1)})-\summa _{a\in Q^{(g)}}\Delta {H}(a,Q^{(g)})$ , där $\Delta {H}(a,Q^ {(g)})$ är hypervolymindikatorns bidrag från individen $a$ till populationen $Q^{(g)}$ . Belöningen $r^{(g)}>0$ om den nyligen införda individen förbättrar kvaliteten på populationen, vilket mäts som dess hypervolymbidrag i det objektiva rummet.
4. En uppmjukning av ovanstående belöning, som involverar en rangbaserad bestraffning för poäng för $k$ -:e dominerade Pareto-fronten: $r^{(g)}={\frac {1}{2^{k-1}}}\left(\sum _{ndom_{k}(Q^{(g+ 1)})}\Delta {H}(a,ndom_{k}(Q^{(g+1)}))-\summa _{ndom_{k}(Q^{(g)})}\Delta {H}(a,ndom_{k}(Q^{(g)}))\höger)$

Belöningsbaserat urval kan snabbt identifiera de mest fruktbara sökriktningarna genom att maximera den kumulativa belöningen för individer.

Se även