Краткое пояснение энтропийного регуляризированного обучения с подкреплением
Энтропийное регуляризированное обучение с подкреплением подробное объяснение в кратком изложении
Узнайте о надежных, устойчивых и переносимых политиках, добавляя бонусы энтропии в свой алгоритм
Энтропия – это понятие, связанное с состоянием беспорядка, случайности или неопределенности. Она может рассматриваться как мера информации для случайных переменных. Традиционно она связана с такими областями, как термодинамика, но термин нашел свое применение во многих других областях.
В 1948 году Клод Шеннон представил понятие энтропии в теории информации. В этом контексте событие считается более информативным, если оно имеет более низкую вероятность возникновения; информация о событии обратно пропорциональна его вероятности. Интуитивно: мы узнаем больше из редких событий.
Понятие энтропии может быть формализовано следующим образом:
В области обучения с подкреплением (RL) также используется понятие энтропии с целью стимулировать исследование. В этом контексте энтропия является мерой предсказуемости действий, возвращаемых стохастической политикой.
- Топ-9 инструментов управления данными, которые будут использоваться в 2023 году
- Поиск изображений за 5 минут
- Примите участие на виртуальной конференции ODSC West бесплатно с помощью открытого пропуска
Конкретно, RL берет энтропию политики (т.е. вероятностное распределение действий) в качестве бонуса и встраивает ее как компонент вознаграждения. В данной статье рассматривается базовый случай, но бонусы энтропии являются неотъемлемой частью многих передовых алгоритмов RL.
Что такое энтропия?
Давайте сначала разберемся в понятии энтропии. Ниже приведены примеры политик с низкой и высокой энтропией соответственно. Политика с низкой энтропией практически детерминирована; мы почти всегда выбираем одно и то же действие. В политике с высокой энтропией действия, которые мы выбираем, намного более случайны.
![Пример политики с низкой энтропией (слева) и высокой энтропией (справа). В политике с высокой энтропией действия, которые мы выбираем, намного более случайны [изображение от автора]](https://ai.miximages.com/miro.medium.com/v2/resize:fit:640/format:webp/1*Gnx-mntD0VAMZmlVzsKMOg.png)
Теперь давайте рассмотрим энтропию подбрасывания монеты.
Энтропия Шеннона использует логарифм…