Методы Монте-Карло
Monte Carlo Methods
Руководство маленького робота по обучению с подкреплением
Введение в обучение с подкреплением: Часть 4
![Все изображения автора](https://miro.medium.com/v2/resize:fit:640/1*Mq0lQMfNY90MVEWZ7abGGw.gif)
Введение
Мы снова отправляемся в казино, на этот раз оно находится в солнечном Монте-Карло, ставшем известным благодаря его появлению в классическом фильме “Мадагаскар 3: Побег из Европы” (хотя есть небольшая вероятность, что оно уже было известно).
В нашем последнем посещении казино мы рассмотрели задачу многорукий бандит и использовали ее как способ визуализации проблемы выбора лучшего действия при столкновении с множеством возможных действий.
С точки зрения обучения с подкреплением, проблему бандита можно рассматривать как представление одного состояния и доступных действий в этом состоянии. Методы Монте-Карло расширяют эту идею, чтобы охватить несколько взаимосвязанных состояний.
Кроме того, в предыдущих рассмотренных нами задачах мы всегда получали полную модель окружающей среды. Эта модель определяет как вероятности перехода от одного состояния к другому, так и вознаграждение за этот переход.
- Вот что вам не хватает
- Следующий шаг – это ответственный искусственный интеллект. Как мы туда попадем?
- Владение Visual BERT | Раскройте силу вашей первой встречи
В методах Монте-Карло это не так. Модель не предоставляется, и вместо этого агент должен открывать свойства окружающей среды путем исследования, собирая информацию при переходе от одного состояния к другому. Другими словами, методы Монте-Карло учатся на опыте.
В примерах в этой статье используется специальная среда для обучения робота-младенца, и весь связанный код для этой статьи можно найти на Github.
Кроме того, интерактивная версия этой статьи доступна в форме ноутбука, где вы можете запустить все описанные ниже фрагменты кода.
Все предыдущие статьи этой серии можно найти здесь: Руководство маленького робота по обучению с подкреплением.
И, чтобы быстро освежить память о теории и терминологии, используемой в этой статье, загляните в статью Оценка значений состояний и политики за 5 минут.
Прогнозирование Монте-Карло
В задаче прогнозирования мы хотим узнать, насколько хорошо находиться в определенном состоянии окружающей среды. Это “хорошо” представлено состоянием…