Методы Монте-Карло

Monte Carlo Methods

Руководство маленького робота по обучению с подкреплением

Введение в обучение с подкреплением: Часть 4

Все изображения автора

Введение

Мы снова отправляемся в казино, на этот раз оно находится в солнечном Монте-Карло, ставшем известным благодаря его появлению в классическом фильме “Мадагаскар 3: Побег из Европы” (хотя есть небольшая вероятность, что оно уже было известно).

В нашем последнем посещении казино мы рассмотрели задачу многорукий бандит и использовали ее как способ визуализации проблемы выбора лучшего действия при столкновении с множеством возможных действий.

С точки зрения обучения с подкреплением, проблему бандита можно рассматривать как представление одного состояния и доступных действий в этом состоянии. Методы Монте-Карло расширяют эту идею, чтобы охватить несколько взаимосвязанных состояний.

Кроме того, в предыдущих рассмотренных нами задачах мы всегда получали полную модель окружающей среды. Эта модель определяет как вероятности перехода от одного состояния к другому, так и вознаграждение за этот переход.

В методах Монте-Карло это не так. Модель не предоставляется, и вместо этого агент должен открывать свойства окружающей среды путем исследования, собирая информацию при переходе от одного состояния к другому. Другими словами, методы Монте-Карло учатся на опыте.

В примерах в этой статье используется специальная среда для обучения робота-младенца, и весь связанный код для этой статьи можно найти на Github.

Кроме того, интерактивная версия этой статьи доступна в форме ноутбука, где вы можете запустить все описанные ниже фрагменты кода.

Все предыдущие статьи этой серии можно найти здесь: Руководство маленького робота по обучению с подкреплением.

И, чтобы быстро освежить память о теории и терминологии, используемой в этой статье, загляните в статью Оценка значений состояний и политики за 5 минут.

Прогнозирование Монте-Карло

В задаче прогнозирования мы хотим узнать, насколько хорошо находиться в определенном состоянии окружающей среды. Это “хорошо” представлено состоянием…