Знакомьтесь с BOSS Системой обучения с подкреплением (RL), которая обучает агентов решать новые задачи в новых средах с помощью руководства LLM

Познакомьтесь с BOSS Системой обучения с подкреплением (RL), которая обучает агентов решать новые задачи в новых средах с поддержкой LLM-руководства

Представляем BOSS (Bootstrapping your own SkillS): революционный подход, который использует большие языковые модели для автономного создания универсальной библиотеки навыков для решения сложных задач с минимальным руководством. По сравнению с обычными методами несупервизированного формирования навыков и упрощенными методами создания навыков, BOSS лучше справляется с выполнением незнакомых задач в новых средах. Это новшество является значительным прорывом в автономном усвоении и применении навыков.

Подход повышения эффективности обучения через усиление направлен на оптимизацию стратегий в Марковских процессах принятия решений для максимизации ожидаемых результатов. В прошлых исследованиях по обучению через усиление, воспользовавшись предварительно обученными навыками для сложных задач. Несупервизированное обучение через усиление, сосредоточенное на любопытстве, управляемости и разнообразии, позволяет усваивать навыки без человеческого вмешательства. Язык используется для параметризации навыков и планирования с открытым циклом.
BOSS расширяет арсеналы навыков с помощью больших языковых моделей, направляя исследования и поощряя завершение цепочки навыков, что приводит к более высокой успешности выполнения задач длительного горизонта.

Традиционное обучение роботов сильно полагается на надзор, в то время как люди отличаются в усвоении сложных задач независимо. Исследователи представили BOSS как фреймворк для самостоятельного усвоения разнообразных навыков большого горизонта с минимальным вмешательством человека. Посредством использования библиотеки больших языковых моделей (LLM) BOSS постепенно накапливает и объединяет навыки для решения сложных задач. Несупервизированное взаимодействие с окружающей средой повышает надежность политики для решения сложных задач в новых средах.

BOSS представляет собой двухфазовую структуру. В первой фазе он приобретает основной набор навыков, используя несупервизированные цели обучения через усиление. Вторая фаза, “skill bootstrapping”, использует LLM для направления цепочки навыков и наград на основе завершения навыка. Этот подход позволяет агентам создавать сложные поведения на основе основных навыков. Эксперименты в домашних условиях показывают, что подход с использованием LLM для направленного обучения побеждает наивный подход и предыдущие несупервизируемые методы при выполнении незнакомых задач длительного горизонта в новых условиях.

Экспериментальные исследования подтверждают, что BOSS, направляемый LLM, превосходит в решении сложных задач в домашних условиях в новых средах, превышая предыдущие методы планирования на основе LLM и несупервизированные методы исследования. Результаты представляют интерквартильное среднее и стандартное отклонение ортогонализированных оценок и успеха ортогонализированных результатов для задач разной продолжительности в оценках ALFRED. Обученные агенты с подходом, основанном на LLM, превосходят тех, которые использовали наивный подход и предыдущие несупервизируемые методы. BOSS может самостоятельно осваивать разнообразные сложные навыки из базовых навыков, показывая свой потенциал в приобретении роботами навыков без участия эксперта.

Фреймворк BOSS, направляемый LLM, превосходит в автономном решении сложных задач без экспертного руководства. Агенты, тренированные с использованием подхода, направляемого LLM, показывают лучшие результаты, чем агенты с наивным подходом и предыдущими несупервизируемыми методами при выполнении незнакомых функций в новых средах. Реалистичные домашние эксперименты подтверждают эффективность BOSS в приобретении разнообразных сложных навыков из базовых навыков, что подчеркивает ее потенциал в автономном приобретении роботических навыков. BOSS также проявляет потенциал в соединении обучения через усиление с пониманием естественного языка, используя предварительно обученные языковые модели для направленного обучения.

Будущие направления исследований могут включать:

  • Исследование надежного обучения через усиление для автономного усвоения навыков
  • Предложение разделения задач длительного горизонта с помощью подхода с цепочкой навыков BOSS
  • Расширение несупервизированного обучения через усиление для приобретения навыков низкого уровня.

Повышение интеграции обучения через усиление с пониманием естественного языка в фреймворке BOSS также является перспективным направлением. Применение BOSS в различных областях и оценка его производительности в различных средах и контекстах задачи предлагает потенциал для дальнейшего исследования.