ЕВРИКА Проектирование вознаграждений на уровне человека с помощью создания больших языковых моделей

ЕВРИКА Трансформация систем вознаграждения через использование масштабных языковых моделей

С прогрессом больших языковых моделей, достигнутым в последние годы, неудивительно, почему эти модели отличаются в качестве семантических планировщиков для последовательных задач принятия высокоуровневых решений. Однако разработчикам все еще трудно полностью использовать потенциал этих моделей для изучения сложных низкоуровневых задач манипулирования. Несмотря на их эффективность, большие языковые модели сегодня требуют значительной предметной экспертизы, чтобы изучить даже простые навыки или создать текстовые подсказки, что создает значительную разницу между их производительностью и человеческой ловкостью.

Для устранения этой разницы разработчики из Nvidia, CalTech, UPenn и других представили EUREKA, алгоритм дизайна на уровне человека, работающий на базе большой языковой модели. EUREKA стремится использовать различные возможности больших языковых моделей, включая написание кода, улучшение контекста и генерацию контента без обучения, для осуществления беспрецедентной оптимизации кодов вознаграждения. Эти коды вознаграждения, в сочетании с обучением с подкреплением, позволяют моделям изучать сложные навыки или выполнять задачи манипулирования.

В этой статье мы рассмотрим рамки работы EUREKA с точки зрения разработки, изучим его структуру, принцип работы и результаты, которые он достигает в генерации функций вознаграждения. Как утверждают разработчики, эти функции превосходят те, которые создают люди. Мы также изучим, как рамки EUREKA открывают путь для нового подхода к RLHF (обучение с подкреплением с использованием обратной связи от человека), позволяя осуществлять обучение в контексте без градиента. Давайте начнем.

EUREKA: Введение

Сегодня перед современными большими языковыми моделями, такими как GPT-3 и GPT-4, стоят сложные задачи семантического планирования для принятия высокоуровневых решений. Однако разработчики все еще ищут способы улучшить их производительность в отношении изучения низкоуровневых задач манипулирования, таких как ловкость вращения ручки. Кроме того, было замечено, что обучение с подкреплением может давать устойчивые результаты в условиях ловкости в разных областях при условии тщательного конструирования функций вознаграждения человеком, и эти функции вознаграждения способны предоставлять сигналы обучения для желательного поведения. По сравнению с задачами обучения с подкреплением в реальном мире, которые принимают скупые вознаграждения, модели сложно учиться паттернам, и формирование этих вознаграждений обеспечивает необходимые приращения сигналов обучения. Кроме того, функции вознаграждения, несмотря на их важность, чрезвычайно сложно создать, и неполноценные дизайны этих функций часто приводят к нежелательным поведениям. 

Чтобы преодолеть эти проблемы и максимизировать эффективность этих кодов вознаграждения, EUREKA или эволюционно-ориентированный универсальный набор правил для агентов стремится внести следующие вклады.

  1. Достижение производительности на уровне человека при проектировании функций вознаграждения.
  2. Эффективное решение задач манипулирования без использования ручного инжиниринга вознаграждений.
  3. Генерация более гармоничных и производительных функций вознаграждения путем введения нового подхода к обучению в контексте без градиента вместо традиционного метода обучения с подкреплением от человека.

В рамках повышения общности EUREKA разработчики сделали три ключевых алгоритмических выбора: эволюционный поиск, использование окружения в качестве контекста и отражение вознаграждения. Сначала EUREKA использует исходный код окружения в качестве контекста для создания исполняемых функций вознаграждения в условиях без обучения. Затем он осуществляет эволюционный поиск для значительного улучшения качества своих вознаграждений, предлагает пакеты кандидатов на вознаграждение с каждой итерацией или эпохой и усовершенствует наиболее перспективные. На третьем и окончательном этапе фреймворк использует подход отражения вознаграждения, чтобы сделать улучшение вознаграждений в контексте более эффективным, что в конечном итоге помогает фреймворку осуществлять целевое и автоматическое редактирование вознаграждения с использованием текстового обзора качества этих вознаграждений на основе статистики обучения политики. Следующая схема дает вам краткий обзор того, как работает фреймворк EUREKA, а в следующем разделе мы более подробно рассмотрим его архитектуру и принципы работы.

EUREKA: Архитектура модели и постановка задачи

Основная цель формирования вознаграждения – вернуть формируемую или отобранную функцию вознаграждения на основе функции истинного вознаграждения, которая может вызывать затруднения при прямой оптимизации, такие как скупые вознаграждения. Кроме того, дизайнеры могут использовать запросы только для доступа к этим функциям истинного вознаграждения, что объясняет, почему фреймворк EUREKA Использует генерацию вознаграждения, на основе проблемы проектирования функции вознаграждения с использованием программного синтеза RDP.

Проблема проектирования вознаграждения или RDP представляет собой кортеж, содержащий модель мира с пространством состояний, пространство для функций вознаграждения, функцию перехода и пространство действий. Затем алгоритм обучения оптимизирует вознаграждение, создавая политику, которая приводит к MDP или Марковскому процессу проектирования, который производит скалярную эволюцию любой политики и доступен только с помощью запросов политики. Основная цель RDP – вывести функцию вознаграждения таким образом, чтобы политика способна достичь максимального показателя пригодности. В данной задаче EUREKA разработчики указали каждый компонент проблемы проектирования вознаграждения с помощью кода. Кроме того, для данной строки, которая указывает детали задачи, основной целью проблемы генерации вознаграждения является создание кода функции вознаграждения для максимизации показателя пригодности.

Далее, в основе EUREKA framework лежат три основных алгоритмических компонента. Эволюционный поиск (предложение и поэтапное усовершенствование кандидатов), окружение в качестве контекста (генерация исполняемых вознаграждений в условиях нулевого обучения) и отражение вознаграждений (для обеспечения тонкой настройки вознаграждений). Псевдокод алгоритма иллюстрируется на следующем изображении.

Окружение как контекст

В настоящее время фреймворки LLM требуют спецификаций окружения в качестве входных данных для проектирования вознаграждений, в то время как фреймворк EUREKA предлагает подавать исходный код среды напрямую в контексте, без кода вознаграждения, что позволяет фреймворкам LLM использовать модель мира в качестве контекста. Подход, принятый EUREKA, имеет два основных преимущества. Во-первых, фреймворки LLM для целей кодирования обучаются на нативных наборах кода, написанных на существующих языках программирования, таких как C, C++, Python, Java и других, что является основной причиной их лучшей способности создавать коды, когда им разрешено напрямую составлять код в синтаксисе и стиле, на которых они были обучены. Во-вторых, использование исходного кода среды обычно раскрывает семантику используемых сред и переменных, которые подходят или идеальны для использования при попытке вывести функцию вознаграждения в соответствии с указанной задачей. На основе этих выводов фреймворк EUREKA указывает LLM возвращать более исполнимый код Python напрямую с помощью только советов по форматированию и общих проектов вознаграждений.

Включение эволюционного поиска в фреймворк EUREKA нацелено на представление естественного решения для проблем субоптимальности и ошибок, возникающих во время выполнения, как уже упоминалось ранее. С каждой итерацией или эпохой фреймворк получает различные независимые результаты от модели большого языка и, при условии, что генерации являются независимыми и одинаково распределенными, вероятность наличия ошибок в функциях вознаграждения во время итераций экспоненциально уменьшается с увеличением числа образцов с каждой эпохой.

На следующем шаге фреймворк EUREKA использует исполнимые функции вознаграждений из предыдущей итерации для проведения мутации вознаграждения в контексте и предлагает новую и улучшенную функцию вознаграждения на основе текстовой обратной связи. Фреймворк EUREKA, в сочетании с улучшением в контексте и возможностями следования инструкциям моделей большого языка, способен определить оператор мутации в качестве текстового подсказки и предложить способ использования текстового резюме обучения политики для изменения существующих кодов вознаграждения.

Отражение вознаграждений

Для обоснования в контексте мутаций вознаграждений необходимо оценить качество сгенерированных вознаграждений, а, главное, изложить их словами, и с этой задачей фреймворк EUREKA справляется, используя простую стратегию предоставления числовых оценок в качестве оценки вознаграждения. Когда задача функции пригодности служит комплексной метрикой для истины в последней инстанции, такая метрика лишена присвоения заслуг и не может предоставить ценной информации о том, почему функция вознаграждения работает или не работает. Таким образом, в попытке предоставить более целевую и сложную оценку вознаграждения, фреймворк предлагает использовать автоматическую обратную связь для краткого резюме динамики обучения политики в текстовой форме. Кроме того, в программе вознаграждения фреймворка EUREKA требуется, чтобы функции вознаграждения отдельно выделяли свои компоненты, что позволяет фреймворку отслеживать скалярные значения каждого уникального компонента вознаграждения на этапе точек контроля политики на протяжении всей тренировочной фазы.

Хотя процедура функции вознаграждения, используемая фреймворком EUREKA, проста в конструкции, она необходима благодаря алгоритмической зависимости от оптимизации вознаграждений. Это означает, что эффективность функции вознаграждения напрямую зависит от выбора алгоритма обучения с подкреплением, и при изменении гиперпараметров вознаграждение может работать по-разному даже при использовании одного и того же оптимизатора. Таким образом, фреймворк EUREKA способен более эффективно и выборочно редактировать записи при синтезе функций вознаграждения, которые взаимодействуют с алгоритмом обучения с подкреплением.

Обучение и базовая линия

В рамках фреймворка EUREKA есть две основные составляющие обучения: обучение политике и оценка метрик вознаграждения.

Обучение политике

Финальные функции вознаграждения для каждой индивидуальной задачи оптимизируются с помощью одного и того же алгоритма обучения с подкреплением с использованием одного и того же набора гиперпараметров, которые настраиваются таким образом, чтобы человеко-инженерные вознаграждения работали хорошо.

Оценка метрик вознаграждения

Поскольку показатель задачи варьируется по масштабу и семантическому значению для каждой задачи, фреймворк EUREKA сообщает стандартизированный показатель человека, метрику, которая дает голистическую оценку и позволяет сравнить его производительность с экспертными вознаграждениями, сгенерированными людьми, в соответствии с метриками истинной цели.

Перейдем к трём основным базовым линиям: L2R, Human и Sparse.

L2R

L2R – это двухэтапное решение с использованием моделирующего языка, которое помогает генерировать шаблонные вознаграждения. Сначала фреймворк моделирующего языка заполняет естественный языковой шаблон для окружения и задач, указанных на естественном языке, а затем второй фреймворк моделирующего языка преобразует этот “описатель движения” в код, который создает функцию вознаграждения, вызывая набор вручную написанных примитивов API вознаграждения.

Human

Базовые вознаграждения представляют собой оригинальные функции вознаграждения, написанные исследователями обучения с подкреплением, поэтому они представляют результаты человеческого инженерного вознаграждения на небывалом уровне.

Sparse

Базовая линия Sparse подобна функциям пригодности и используется для оценки качества созданных фреймворком вознаграждений.

Результаты и внешность

Для анализа производительности фреймворка EUREKA мы будем оценивать его по различным параметрам, включая его производительность по сравнению с человеческими вознаграждениями, улучшение результатов со временем, генерация новых вознаграждений, обеспечение целевого улучшения и работа с обратной связью человека.

EUREKA превосходит человеческие вознаграждения

На следующей диаграмме показаны агрегированные результаты по различным тестам, и как видно, фреймворк EUREKA или превосходит вознаграждения на уровне человека, или их производительность сопоставима на задачах ловкости и Issac. В сравнении, базовая линия L2R показывает схожую производительность на низкоразмерных задачах, но когда речь идет о высокоразмерных задачах, разрыв в производительности значительный.

Постоянное улучшение с течением времени

Одна из основных особенностей фреймворка EUREKA – его способность постоянно улучшать и повышать производительность со временем с каждой итерацией, и результаты демонстрируются на следующей диаграмме.

Как видно, фреймворк постоянно генерирует лучшие вознаграждения с каждой итерацией, и он также улучшается и, в конечном итоге, превосходит производительность человеческих вознаграждений благодаря использованию подхода эволюционного поиска вознаграждений в контексте.

Генерация новых вознаграждений

Уникальность вознаграждений фреймворка EUREKA можно оценить, рассчитав корреляцию между человеческими и вознаграждениями EUREKA по всем задачам Issac. Эти корреляции затем отображаются на графике рассеяния или карте по отношению к стандартизированным оценкам человека, при этом каждая точка на графике представляет индивидуальное вознаграждение EUREKA для каждой отдельной задачи. Как видно, фреймворк в основном генерирует слабо скоррелированные функции вознаграждения, превосходящие функции вознаграждения человека.

Обеспечение целенаправленного улучшения

Чтобы оценить важность добавления отражения вознаграждения в обратную связь по вознаграждению, разработчики оценили ablation – фреймворк EUREKA без отражения вознаграждения, который сокращает подсказки обратной связи только до снимков значений. При выполнении задач Issac разработчики обнаружили, что без отражения вознаграждения фреймворк EUREKA показал снижение среднего нормализованного балла примерно на 29%.

Работа с обратной связью от людей

Чтобы готово включать широкий спектр входных данных для создания более производительных вознаграждающих функций, фреймворк EUREKA помимо автоматизированного создания вознаграждений также вводит новый градиентно-бесплатный подход в контекстном обучении с использованием обратной связи от людей, и были сделаны два значимых наблюдения.

  1. EUREKA может получать выгоду и улучшение от функций вознаграждения от людей.
  2. Использование обратной связи людей для отражения вознаграждения приводит к согласованному поведению.

Выше приведена иллюстрация того, как фреймворк EUREKA показывает значительный рост производительности и эффективности с использованием человеческой инициализации вознаграждения независимо от качества человеческих вознаграждений, что свидетельствует о том, что качество базовых вознаграждений не оказывает существенного влияния на возможности фреймворка в улучшении вознаграждений с учетом контекста.

Выше показано, что фреймворк EUREKA может не только приводить к более согласованным политикам, соответствующим людям, но также изменять вознаграждения с учетом обратной связи от людей.

Финальные мысли

В этой статье мы рассмотрели EUREKA, алгоритм проектирования, работающий на основе LLM, который пытается использовать различные возможности LLM-фреймворков, включая написание кода, способности к контекстному улучшению и генерацию контента без подготовки, чтобы осуществлять беспрецедентную оптимизацию кодов вознаграждения. Код вознаграждения вместе с обучением с подкреплением может затем быть использован этими фреймворками для изучения сложных навыков или выполнения манипуляционных задач. Без вмешательства человека или разработки задачи-специфичных подсказок, фреймворк обеспечивает возможности генерации вознаграждения на уровне человека для широкого спектра задач, и его основная сила заключается в изучении сложных задач с использованием куррикулярного подхода к обучению.

В целом, значительная производительность и универсальность фреймворка EUREKA указывает на потенциал сочетания эволюционных алгоритмов с большими моделями языка, что может привести к масштабному и общему подходу к проектированию вознаграждений, и эта идея может быть применима к другим проблемам поиска с неопределенным результатом.