Основа RL – TD(λ) и 3 крупных имена
The basis of RL - TD(λ) and 3 major names.
Как Метод Монте-Карло, SARSA и Q-learning могут быть получены из TD(λ)
Основы являются самым важным. Прежде чем погрузиться в современные алгоритмы в Обучении с Подкреплением (RL), важно понять основные принципы, на которых они основаны.
В мире RL это означает, что мы должны оценить концепцию временной разницы (TD) обучения, которая обобщается на TD(λ). Используя единую кодовую базу всего в несколько строк, я покажу, как обобщенная форма классической задачи RL может быть решена с помощью
- Метода Монте-Карло,
- SARSA,
- Q-learning и
- TD(λ) с 0 < λ < 1.
Результаты представлены в виде gif-изображений, используя вспомогательные функции, которые вы можете легко повторно использовать. В качестве примера, вы сможете сгенерировать следующее самостоятельно к концу этой статьи!
Наш агент (представленный смайликом 😃) начинает на синей сетке и пытается достичь желтой сетки. Красная сетка приводит к сильному отрицательному вознаграждению и завершает эпизод, в то время как оранжевая сетка несет некоторое наказание, но не является терминальным состоянием. Среда ветрена и, чтобы усложнить задачу, агент может двигаться в другом направлении из-за стохастического перехода. Вот почему движение может отличаться от политики (обозначенной стрелками). Обратите внимание, что политика может показаться неправильной на первый взгляд. Я вас уверяю, что она правильная из-за определения среды!
- Как оценивать представления
- Представление пути в Python
- 5 лучших инструментов искусственного интеллекта для максимизации производительности
Здесь предполагается базовое знание RL, хотя я кратко расскажу о ключевых концепциях, чтобы контент был доступен также для практиков из других областей машинного обучения.
Общая картина
Основная цель RL
В своей сути RL заключается в обучении принимать последовательность действий, которые максимизируют ожидаемую общую совокупную награду. Это учитывает задержанные последствия, включая ограничения на набор доступных действий в разных состояниях.