Встречайте Eureka алгоритм проектирования наград на уровне человека, усиленный моделью большого языка LLMs.

Познакомьтесь с Eureka алгоритмом проектирования человекоцентричных наград, улучшенным моделью большого языка LLMs.

Большие модели языка (LLM) отлично справляются с планированием на высоком уровне, но нуждаются в помощи в овладении умениями низкого уровня, например, фокусами с ручкой. Однако команда исследователей из NVIDIA, UPenn, Caltech и UT Austin разработала алгоритм под названием EUREKA, который использует современные LLM, такие как GPT-4, для создания функций вознаграждения для приобретения сложных навыков с помощью обучения с подкреплением. EUREKA превосходит вознаграждения, созданные человеком, предоставляя более безопасные и высококачественные советы на основе векторов градиента, полученных из контекстного обучения на основе обратной связи от людей. Этот прорыв открывает путь к развитию навыков, основанных на LLM, как показано на примере симулированной руки Shadow, справляющейся с фокусами с ручкой.

Вознаграждение в обучении с подкреплением представляет некоторые трудности, поскольку существующие методы, такие как пробно-ошибочное обучение вручную и обратное обучение с учителем, требуют большей масштабируемости и адаптируемости. EUREKA представляет подход, использующий LLM для генерации интерпретируемых кодов вознаграждения, улучшая вознаграждения в режиме реального времени. В то время как предыдущие работы исследовали LLM для принятия решений, EUREKA является прорывным в своем применении к задачам изучения низкоуровневых навыков, пионерские эволюционные алгоритмы с использованием LLM для создания вознаграждений без начальных вариантов или малого количества подсказок.

LLM прекрасно справляются с планированием на высоком уровне, но нуждаются в помощи в овладении умениями низкого уровня, такими как фокусы с ручкой. Создание вознаграждения в обучении с подкреплением часто основывается на затратном пробно-ошибочном методе. Их исследование представляет EUREKA, использующую передовые моделирование LLM, такие как GPT-4, для создания функций вознаграждения для различных задач автономно, превосходя вознаграждения, созданные человеком, в разнообразных средах. EUREKA также обеспечивает возможность обучения в контексте на основе обратной связи от людей, улучшая качество и безопасность вознаграждений. Это позволяет решить проблему освоения ловкости в задачах ручной манипуляции, недостижимых при ручном создании вознаграждений.

EUREKA, алгоритм для создания вознаграждений, работающий на LLM, таких как GPT-4, автономно создает функции вознаграждения, преуспевая в 29 средах обучения с подкреплением. Он использует обучение в контексте на основе обратной связи от людей для улучшения качества и безопасности вознаграждений без обновления модели. Вознаграждения EUREKA позволяют тренировать симулированную руку Shadow в фокусах с ручкой и быстрой манипуляции ручкой. Он является пионерским в использовании эволюционных алгоритмов с LLM для создания вознаграждений, устраняя необходимость в начальных вариантах или малом количестве подсказок и являясь значительным прорывом в обучении с подкреплением.

EUREKA превосходит L2R, показывая свою способность создавать выразительные вознаграждения. EUREKA постоянно улучшается, и его лучшие вознаграждения в конечном итоге превосходят человеческие тесты. Он создает уникальные вознаграждения слабо коррелированные с человеческими, потенциально раскрывая контративные принципы дизайна. Отражение вознаграждений улучшает результаты в задачах с высокой размерностью. Вместе с обучением по плану EUREKA добивается успеха в задачах ловкости при фокусах с ручкой с использованием симулированной руки Shadow.

EUREKA, алгоритм для создания вознаграждений, управляемый LLM, достигает вознаграждений, эквивалентных человеческим, успешно справляясь с 83% задач с средним улучшением 52%. Комбинирование LLM с эволюционными алгоритмами является гибким и масштабируемым подходом к созданию вознаграждений для сложных и нерешенных проблем. Успех EUREKA в ловкости очевиден в решении сложных задач, таких как фокусы с ручкой, с использованием обучения по плану. Его адаптируемость и значительное повышение производительности обещают успешное применение в различных областях обучения с подкреплением и создания вознаграждений.

Будущие исследования включают оценку адаптируемости и производительности EUREKA в более разнообразных и сложных средах, а также в связке с различными конструкциями роботов. Оценка его применимости в реальном мире за пределами симуляции является ключевой. Исследование синергии с техниками обучения с подкреплением, такими как модельные методы или мета-обучение, может дополнительно улучшить возможности EUREKA. Исследование интерпретируемости созданных EUREKA кодов вознаграждения является неотъемлемым для понимания его принятых решений. Усовершенствование интеграции обратной связи от людей и исследование потенциала EUREKA в различных областях, выходящих за пределы робототехники, обещают многообещающие результаты.