Основа RL – TD(λ) и 3 крупных имена

The basis of RL - TD(λ) and 3 major names.

Как Метод Монте-Карло, SARSA и Q-learning могут быть получены из TD(λ)

Фотография Лоика Барре на Unsplash

Основы являются самым важным. Прежде чем погрузиться в современные алгоритмы в Обучении с Подкреплением (RL), важно понять основные принципы, на которых они основаны.

В мире RL это означает, что мы должны оценить концепцию временной разницы (TD) обучения, которая обобщается на TD(λ). Используя единую кодовую базу всего в несколько строк, я покажу, как обобщенная форма классической задачи RL может быть решена с помощью

  1. Метода Монте-Карло,
  2. SARSA,
  3. Q-learning и
  4. TD(λ) с 0 < λ < 1.

Результаты представлены в виде gif-изображений, используя вспомогательные функции, которые вы можете легко повторно использовать. В качестве примера, вы сможете сгенерировать следующее самостоятельно к концу этой статьи!

Наш агент (представленный смайликом 😃) начинает на синей сетке и пытается достичь желтой сетки. Красная сетка приводит к сильному отрицательному вознаграждению и завершает эпизод, в то время как оранжевая сетка несет некоторое наказание, но не является терминальным состоянием. Среда ветрена и, чтобы усложнить задачу, агент может двигаться в другом направлении из-за стохастического перехода. Вот почему движение может отличаться от политики (обозначенной стрелками). Обратите внимание, что политика может показаться неправильной на первый взгляд. Я вас уверяю, что она правильная из-за определения среды!

Здесь предполагается базовое знание RL, хотя я кратко расскажу о ключевых концепциях, чтобы контент был доступен также для практиков из других областей машинного обучения.

Общая картина

Основная цель RL

В своей сути RL заключается в обучении принимать последовательность действий, которые максимизируют ожидаемую общую совокупную награду. Это учитывает задержанные последствия, включая ограничения на набор доступных действий в разных состояниях.