Exemple dp preparateur de commande

Par exemple, le jeu de backgammon a sur les États. Les valeurs de certains États peuvent être sauvegardées plusieurs fois avant que les valeurs des autres ne soient sauvegardées une fois. Par exemple, une version de l`itération de valeur asynchrone sauvegarde la valeur, en place, d`un seul État, à chaque étape, à l`aide de la sauvegarde d`itération de valeur (4. Même si nous pouvions effectuer la sauvegarde d`itération de valeur sur un million d`États par seconde, il faudrait plus de mille ans pour effectuer un balayage unique. Certains États ne peuvent pas avoir besoin de leurs valeurs sauvegardées aussi souvent que d`autres. Bien que les détails de ce et d`autres algorithmes DP plus inhabituel sont au-delà de la portée de ce livre, il est clair que quelques sauvegardes différentes forment des blocs de construction qui peuvent être utilisés de manière flexible dans une grande variété d`algorithmes DP sans balayage. L`expérience de l`agent peut être utilisée pour déterminer les États auxquels l`algorithme DP applique ses sauvegardes. Ces algorithmes sauvegarder les valeurs des États dans n`importe quel ordre, en utilisant toutes les valeurs des autres États se trouvent être disponibles. Si le jeu d`État est très grand, alors même un balayage unique peut être prohibitivement coûteux. Dans le même temps, les dernières informations de valeur et de politique de l`algorithme DP peuvent guider la prise de décision de l`agent.

Pour résoudre un MDP donné, nous pouvons exécuter un algorithme DP itératif en même temps qu`un agent connaît réellement le MDP. Cela permet de concentrer les sauvegardes de l`algorithme DP sur des parties de l`ensemble d`État qui sont les plus pertinentes pour l`agent. Certaines idées pour ce faire sont abordées dans le chapitre 9. Si, la convergence asymptotique est garantie étant donné que tous les États se produisent dans la séquence un nombre infini de fois. Les algorithmes asynchrones facilitent également l`intermixité des calculs avec l`interaction en temps réel. Pour converger correctement, toutefois, un algorithme asynchrone doit continuer à sauvegarder les valeurs de tous les États: il ne peut pas ignorer n`importe quel état après un certain point dans le calcul. Ce type de focalisation est un thème répété dans l`apprentissage des armatures. De même, il est possible d`intermélanger l`évaluation des stratégies et les sauvegardes d`itération de valeur pour produire une sorte d`itération de stratégie tronquée asynchrone.

Nous pouvons essayer de profiter de cette souplesse en sélectionnant les États auxquels nous appliquons des sauvegardes afin d`améliorer le taux de progression de l`algorithme. Nous pouvons essayer de commander les sauvegardes pour laisser les informations de valeur se propager de l`État à l`état d`une manière efficace. Les algorithmes DP asynchrones permettent une grande souplesse dans la sélection des États auxquels les opérations de sauvegarde sont appliquées. Cela signifie simplement qu`un algorithme n`a pas besoin de se verrouiller dans un balayage désespérément long avant qu`il puisse faire progresser l`amélioration d`une politique. Les algorithmes DP asynchrones sont des algorithmes de DP itératifs sur place qui ne sont pas organisés en termes de balayages systématiques du jeu d`États. Nous pourrions même essayer de sauter la sauvegarde de certains États entièrement si elles ne sont pas pertinentes pour un comportement optimal. Dans le cas épisodique non actualisé, il est possible qu`il y ait des commandes de sauvegardes qui n`entraînent pas de convergence, mais il est relativement facile de les éviter. Bien sûr, éviter les balayages ne signifie pas nécessairement que nous pouvons nous en tirer avec moins de calcul.

Par exemple, nous pouvons appliquer des sauvegardes aux États que l`agent les visite..