Обучение с подкреплением Марковский процесс принятия решений — Часть 1
Обучение с подкреплением Марковский процесс принятия решений — Часть 1' can be condensed as 'Reinforcement Learning Markov Decision Process - Part 1
Введение в основу обучения с подкреплением – Марковский процесс принятия решений
![Изображение от Ricardo Gomez Angel на Unsplash](https://miro.medium.com/v2/resize:fit:640/format:webp/1*Rr9y8SjXzRNoUkFsT3pwCg.jpeg)
В большинстве моих предыдущих статей я в основном говорил о Обучении с учителем, с некоторыми элементами Обучения без учителя. Однако в этой и следующих нескольких статьях я попытаюсь рассмотреть проблему Обучения с подкреплением и предоставить вам, читателю, ясное и интуитивное представление об этом.
Давайте сначала дадим общий обзор Машинного обучения. Итак, в Машинном обучении есть 3 разных основных подраздела – Обучение без учителя, Обучение с учителем и Обучение с подкреплением. Давайте сначала попытаемся понять различия:
- Обучение без учителя: Автоматическое нахождение шаблона или присвоение меток всем данным без меток – каждая точка является вектором всех признаков – обычно путем их кластеризации. Представьте, что вы переезжаете в новую комнату – с шкафами и шкафчиками – со всеми своими вещами. Вы тщательно изучаете комнату и свои вещи и видите, какие предметы похожи друг на друга, затем аккуратно упаковываете свои вещи в их соответствующие категорические места. По сути, вы практикуете Обучение без учителя – процесс в один шаг.
- Обучение с учителем: Теперь у вас есть эти данные с метками, присвоенными им – вам говорят, к какой метке относится каждая из этих точек данных. Затем вы находите функцию, которая может соответствовать этим точкам данных правильной метке – находя
y≈f(x)
. Представьте себе это – вы изучаете Обучение с подкреплением и сначала у вас есть некоторые представления. Поэтому ваша функцияf(x)
инициализируется случайным образом. Со временем, когда вы продолжаете возвращаться к учебным материалам, ваши концепции становятся сильнее. По сути, этаy
– это учебный материал, аf(x)
– это ваше понимание. Как видите, Обучение с учителем – это процесс в один шаг. - Обучение с подкреплением: Обучение с подкреплением существенно отличается от Обучения с учителем, потому что вместо использования меток для обучения оно использует вознаграждения. Кроме того, Обучение с подкреплением обычно является многошаговым процессом – множество состояний с точками данных для каждого состояния, и для каждого состояния агент выбирает действия с целью максимизации вознаграждения в долгосрочной перспективе. В Обучении с учителем метка
y
…