Обучение с подкреплением Марковский процесс принятия решений — Часть 1

Обучение с подкреплением Марковский процесс принятия решений — Часть 1' can be condensed as 'Reinforcement Learning Markov Decision Process - Part 1

Введение в основу обучения с подкреплением – Марковский процесс принятия решений

Изображение от Ricardo Gomez Angel на Unsplash

В большинстве моих предыдущих статей я в основном говорил о Обучении с учителем, с некоторыми элементами Обучения без учителя. Однако в этой и следующих нескольких статьях я попытаюсь рассмотреть проблему Обучения с подкреплением и предоставить вам, читателю, ясное и интуитивное представление об этом.

Давайте сначала дадим общий обзор Машинного обучения. Итак, в Машинном обучении есть 3 разных основных подраздела – Обучение без учителя, Обучение с учителем и Обучение с подкреплением. Давайте сначала попытаемся понять различия:

  1. Обучение без учителя: Автоматическое нахождение шаблона или присвоение меток всем данным без меток – каждая точка является вектором всех признаков – обычно путем их кластеризации. Представьте, что вы переезжаете в новую комнату – с шкафами и шкафчиками – со всеми своими вещами. Вы тщательно изучаете комнату и свои вещи и видите, какие предметы похожи друг на друга, затем аккуратно упаковываете свои вещи в их соответствующие категорические места. По сути, вы практикуете Обучение без учителя – процесс в один шаг.
  2. Обучение с учителем: Теперь у вас есть эти данные с метками, присвоенными им – вам говорят, к какой метке относится каждая из этих точек данных. Затем вы находите функцию, которая может соответствовать этим точкам данных правильной метке – находя y≈f(x). Представьте себе это – вы изучаете Обучение с подкреплением и сначала у вас есть некоторые представления. Поэтому ваша функция f(x) инициализируется случайным образом. Со временем, когда вы продолжаете возвращаться к учебным материалам, ваши концепции становятся сильнее. По сути, эта y – это учебный материал, а f(x) – это ваше понимание. Как видите, Обучение с учителем – это процесс в один шаг.
  3. Обучение с подкреплением: Обучение с подкреплением существенно отличается от Обучения с учителем, потому что вместо использования меток для обучения оно использует вознаграждения. Кроме того, Обучение с подкреплением обычно является многошаговым процессом – множество состояний с точками данных для каждого состояния, и для каждого состояния агент выбирает действия с целью максимизации вознаграждения в долгосрочной перспективе. В Обучении с учителем метка y