Обучение с подкреплением SARSA и Q-обучение – Часть 3

Обучение с подкреплением SARSA и Q-обучение - Часть 3

Введение в семейство итеративных методов Temporal Difference для решения процесса принятия решений Маркова

Изображение от Alexey Savchenko на Unsplash

В предыдущей статье – Часть 2 – мы изучили несколько алгоритмов решения процесса принятия решений Маркова (MDP), а именно метод динамического программирования и метод Монте-Карло. Подход динамического программирования легко применяется, когда мы знаем всю динамику окружающей среды MDP, такую ​​как Переходные вероятности между всеми состояниями (при условии действий). Однако такие предположения могут быть непрактичными, особенно когда мы рассматриваем приложения в реальном мире, когда стохастические связи между состояниями и действиями часто неопределенны.

Без знания Переходных вероятностей мы тогда представили идею опытного обучения с идеей, называемой обучением Монте-Карло. Под этой парадигмой существует обучающийся агент, перемещающийся по своей среде с помощью действий, взятых из определенной “наилучшей” политики. В рамках проб и ошибок с этой парадигмой политика обновляется только после каждой эпизода.

Чтобы освежить или вернуться к этим идеям, ознакомьтесь с Частью 2 ниже:

Обучение с подкреплением: Динамическое программирование и Монте-Карло – Часть 2

Введение двух простых итеративных методов для решения процесса принятия решений Маркова

pub.towardsai.net

Однако, как упоминалось в предыдущей статье, вышеуказанные решения ограничены в применении – особенно в сценариях без модели, когда вам нужно обновлять свою политику на ходу до окончания эпизода. Или, возможно, эпизод бесконечен – представьте себе жизненный путь в виде MDP. В этом случае мы обычно обновляем наше обучение – какие наилучшие действия предпринять – непрерывно, а не ждем определенного момента, где мы проводим массовую рефлексию или даже до конца нашей жизни.

Чтобы решить эту задачу непрерывного обучения на протяжении временных шагов, в этой статье будет рассмотрено семейство алгоритмов Temporal Difference (TD), а именно SARSA(0), SARSA(λ) и Q-Learning. Как SARSA(0), так и SARSA(λ) являются вариантами On-Policy обучения методом Temporal Difference, в то время как Q-learning является его вариантом Off-Policy.