Aller au contenu

Méthode policy-gradient

Un article de Wikipédia, l'encyclopédie libre.

En apprentissage par renforcement, une méthode policy-gradient est un algorithme qui apprend une politique en s'intéressant directement à celle-ci[1].

Un algorithme de ce type optimise la politique paramétrée par rapport au rendement attendu avec la méthode de descente de gradient. Après un certain nombre d'itérations, l'objectif est d'obtenir une maximisation de la performance de la politique pour un modèle étudié.

Les méthodes policy-gradients s'opposent donc aux méthodes value-based, qui elles, optimisent des valeurs puis définissent la politique solution selon ces valeurs.

REINFORCE est un algorithme policy-gradient

Notes et références

[modifier | modifier le code]
  1. (en) Richard S. Sutton et Andrew G. Barto, Reinforcement Learning: An Introduction, A Bradford Book, coll. « Adaptive Computation and Machine Learning series », (ISBN 978-0-262-03924-6, lire en ligne)