Как работает PPO со стрижкой?

Как работает PPO при стрижке?

Интуиция + математика + код, для практиков

Фото от Tamanna Rumee на Unsplash

В области обучения с подкреплением, Proximal Policy Optimization (PPO) часто приводится как пример подхода к политике в сравнении с DQN (подход на основе значения) и большой семьей методов актор-критик, которая включает в себя TD3 и SAC.

Помню, что некоторое время назад, когда я впервые учил это, я остался непреодолимо убежденным. Многие учителя используют подход типа “раскручивания руками”. Я в это не верю, и вам тоже не стоит.

В этой статье я попытаюсь объяснить, как работает PPO, поддерживая математику как интуицию, так и код. Вы можете попробовать разные сценарии и убедиться сами, что это работает не только в принципе, но и на практике, и что здесь нет выборочности.

Почему стоит беспокоиться?

PPO и другие передовые модели могут быть реализованы за несколько минут с использованием stable-baselines3 (sb3). Любой, следующий документацию, может запустить его, не зная основной модели.

Однако, независимо от того, являетесь ли вы практиком или теоретиком, фундаментальные знания имеют значение. Если вы просто рассматриваете PPO (или любую другую модель) как черный ящик, как вы ожидаете, что ваши пользователи будут доверять тому, что вы предоставляете?

Подробное руководство по коду я проведу позже в этом месяце, написав оболочку так, чтобы любая среда, будь то из Gymnasium или своя собственная, работала с любой моделью sb3, независимо от того, является ли пространство “Дискретным” или “Прямоугольным”. (В прошлом месяце я показал, как Монте-Карло, SARSA и Q-обучение могут быть получены из TD(λ) с использованием одного набора кода.)

Достаточно на завтра, давайте будем здесь и сейчас!

Предшественник PPO

Простое градиентное обучение политики является наиболее основным случаем методов, основанных на политике, где политика изучается и обновляется напрямую, а не получается из некоторой функции ценности. Недостатком является высокая вариация при обновлении политики, что создает проблемы с сходимостью, особенно в средах с разреженными вознаграждениями.

Математика TRPO

TRPO (Trust Region Policy Optimization) гарантирует, что новая политика (где ‘новая’ означает после обновления) не сильно отклоняется от предыдущей политики. Это достигается за счет…