Краткое пояснение энтропийного регуляризированного обучения с подкреплением

Энтропийное регуляризированное обучение с подкреплением подробное объяснение в кратком изложении

Узнайте о надежных, устойчивых и переносимых политиках, добавляя бонусы энтропии в свой алгоритм

Фото Джереми Томас на Unsplash

Энтропия – это понятие, связанное с состоянием беспорядка, случайности или неопределенности. Она может рассматриваться как мера информации для случайных переменных. Традиционно она связана с такими областями, как термодинамика, но термин нашел свое применение во многих других областях.

В 1948 году Клод Шеннон представил понятие энтропии в теории информации. В этом контексте событие считается более информативным, если оно имеет более низкую вероятность возникновения; информация о событии обратно пропорциональна его вероятности. Интуитивно: мы узнаем больше из редких событий.

Понятие энтропии может быть формализовано следующим образом:

В области обучения с подкреплением (RL) также используется понятие энтропии с целью стимулировать исследование. В этом контексте энтропия является мерой предсказуемости действий, возвращаемых стохастической политикой.

Конкретно, RL берет энтропию политики (т.е. вероятностное распределение действий) в качестве бонуса и встраивает ее как компонент вознаграждения. В данной статье рассматривается базовый случай, но бонусы энтропии являются неотъемлемой частью многих передовых алгоритмов RL.

Что такое энтропия?

Давайте сначала разберемся в понятии энтропии. Ниже приведены примеры политик с низкой и высокой энтропией соответственно. Политика с низкой энтропией практически детерминирована; мы почти всегда выбираем одно и то же действие. В политике с высокой энтропией действия, которые мы выбираем, намного более случайны.

Пример политики с низкой энтропией (слева) и высокой энтропией (справа). В политике с высокой энтропией действия, которые мы выбираем, намного более случайны [изображение от автора]

Теперь давайте рассмотрим энтропию подбрасывания монеты.

Энтропия Шеннона использует логарифм…