Исследователи Meta AI открыли исходный код жемчужины готовой к производству библиотеки искусственного интеллекта с подкреплением обучения

Исследователи Meta AI открывают исходный код библиотеки искусственного интеллекта, готовой к производству, с укреплением обучения

Усиленное обучение (RL) – это отрасль машинного обучения, в которой агент принимает подходящие действия для максимизации своих вознаграждений. В усиленном обучении модель учится на своих опытах и определяет оптимальные действия, которые приводят к лучшим вознаграждениям. В последние годы RL значительно улучшилось и сегодня находит применение в широком спектре отраслей, от автономных автомобилей до робототехники и даже игр. Также были сделаны значительные прогрессы в разработке библиотек, которые облегчают разработку систем RL. Примеры таких библиотек включают RLLib, Stable-Baselines 3 и др.

Чтобы создать успешного агента RL, необходимо решить определенные проблемы, такие как работа с отсроченной наградой и последствиями, нахождение баланса между эксплуатацией и исследованием, а также учет дополнительных параметров (например, обеспечение безопасности или требования к риску), чтобы избежать катастрофических ситуаций. Текущие библиотеки RL, хотя и мощные, недостаточно эффективно решают эти проблемы. Именно поэтому исследователи из Meta выпустили библиотеку под названием Pearl, которая учитывает вышеуказанные проблемы и позволяет пользователям разрабатывать универсальных агентов RL для реальных приложений.

Pearl основана на фреймворке PyTorch, что делает ее совместимой с графическими процессорами и распределенным обучением. Библиотека также предоставляет различные функциональные возможности для тестирования и оценки. Основным алгоритмом обучения политик в Pearl является PearlAgent, который имеет такие функции, как интеллектуальное исследование, чувствительность к риску, ограничения безопасности и т. д., а также компоненты, такие как оффлайн и онлайн обучение, безопасное обучение, суммирование истории и буферы воспроизведения.

Эффективный агент RL должен иметь возможность использовать алгоритм обучения в оффлайн режиме для изучения и оценки политики. Кроме того, для оффлайн и онлайн обучения агент должен иметь некоторые меры безопасности для сбора данных и обучения политики. Вместе с этим агент должен также иметь возможность изучать состояния с использованием различных моделей и суммировать историю в состояния, чтобы исключить нежелательные действия. Наконец, агент должен также эффективно использовать данные с помощью буфера воспроизведения, чтобы повысить эффективность обучения. Исследователи Meta включили все вышеперечисленные функции в дизайн Pearl (в частности, PearlAgent), сделав ее универсальной и эффективной библиотекой для разработки агентов RL.

Исследователи сравнили Pearl с существующими библиотеками RL, оценивая такие факторы, как модулярность, интеллектуальное исследование, безопасность и другие. Pearl успешно реализовала все эти возможности, отличаясь от конкурентов, которые не смогли включить все необходимые функции. Например, RLLib поддерживает RL в оффлайн режиме, суммирование истории и буфер воспроизведения, но не модулярность и интеллектуальное исследование. Аналогично, SB3 не учитывает модулярность, безопасное принятие решений и контекстуальный бандит. Именно Pearl выделяется среди других, имея все функции, учтенные исследователями.

Pearl также продолжает разрабатываться для поддержки различных реальных приложений, включая рекомендательные системы, аукционные системы и творческий отбор, что делает ее многообещающим инструментом для решения сложных задач в разных отраслях. Хотя RL сделал значительные прогрессы в последние годы, его применение для решения реальных проблем все еще представляет собой непростую задачу, и Pearl проявила свои способности преодолеть эту преграду, предлагая комплексные и профессиональные решения. Благодаря уникальным возможностям, таким как интеллектуальное исследование, безопасность и суммирование истории, она имеет потенциал стать ценным инструментом для широкого использования RL в реальных приложениях.