К AGI роли LLM и фундаментальных моделей в революции пожизненного обучения

Роль AGI, LLM и фундаментальных моделей в революции пожизненного обучения

Интеграция новаций в непрерывные достижения в области искусственного общего интеллекта (AGI), включая VOYAGER, DEPS и AutoGPT.

Авторы: Элахе Агапур, Салар Рахили

Введение:

В последнее десятилетие и особенно после успешного применения глубокого обучения состоялось обсуждение возможности создания искусственного общего интеллекта (AGI). Главная цель AGI заключается в создании агента, который способен выполнять любую задачу, выполнимую человеком. Ключевой компетенцией, необходимой для такого агента, является способность непрерывно обучаться новым навыкам и использовать уже освоенные навыки для более быстрого усвоения сложных навыков. Эти навыки должны быть разделены на подзадачи, где агент взаимодействует с окружающей средой, учась на своих неудачах до достижения успеха. И после изучения нового навыка агент должен интегрировать его в уже имеющийся репертуар усвоенных навыков для будущего применения. Большие языковые модели (ЛЛМ) показали, что они имеют хорошее понимание мира и способность выполнять различные задачи. В последние годы в ряде интересных статей была предложена концепция использования ЛЛМ в качестве ключевого принимающего решения при непрерывном обучении. Эти работы в основном выбирают аналогичные тестовые среды, такие как Crafter или Minecraft, поскольку они могут симулировать конечную цель AGI – выживание и процветание.

Для изучения последних достижений в этой области мы сначала описываем сотрудничество различных строительных блоков, которые облегчают процесс обучения. Затем мы углубляемся в детали каждого компонента, сравнивая их реализацию и функциональность в различных исследовательских статьях.

Обзор:

Рис. 1: Ключевые строительные блоки, определенные в литературе, собраны в комплексную блок-схему. Блоки, выделенные пунктирными линиями, не включены в каждую статью (Изображение - автор).

Для разработки итеративного и непрерывного процесса обучения/выполнения задач многие рекомендуемые рамки принимают узнаваемый процесс. Те, кто имеет опыт в области обратной связи или обучения с подкреплением, заметят схожую структуру (см. рис. 1); однако, есть заметные добавления, которые минимизируют ручной ввод и повышают автоматизацию процесса.

На первом шаге агенту человеком присваивается широко определенная задача, отражающая основную цель пожизненного обучения. Эта задача часто формулируется в виде подсказки, описывающей основную цель, например, “исследовать окружающую среду и выполнить как можно больше разнообразных задач”. Блок Планировщик, условленный этой широко определенной целью, разбивает цель на последовательность исполняемых и понятных задач. Для осуществления такого разделения требуется понимание окружающей среды, в которой работает агент. Поскольку ЛЛМ были обучены на обширном корпусе данных, они могут быть лучшими кандидатами на роль планировщиков. Кроме того, любая дополнительная, явная или ручная контекстная информация может повысить их производительность.

В блоке Селектора планировщиком предоставляется набор производных подзадач. Селектор, руководствуясь основной целью и выводами Критика, определяет наиболее подходящую следующую подзадачу, которая не только приведет к наилучшему результату, но также удовлетворяет предварительным условиям. Задача Контроллера – генерировать действия для выполнения текущей подзадачи. Для минимизации повторных усилий и использования ранее освоенных задач в нескольких исследованиях предлагается включить блок Памяти. Этот блок используется для извлечения наиболее похожих освоенных задач, интегрируя их в текущий рабочий процесс.

Сгенерированное действие затем вводится в Среду. Чтобы оценить влияние последних действий, Критик контролирует состояние среды, предоставляя обратную связь, включающую выявление недостатков, причин неудачи или возможное завершение задачи. Критик на основе ЛЛМ требует текстового ввода, который осуществляется блоком Дескриптора, чтобы описать/трансформировать состояние среды и агента в текст. Критик затем информирует Планировщика о том, что произошло в последней попытке, и предоставляет всестороннюю обратную связь для помощи Планировщику в следующей попытке.

Описание строительных блоков: Сравнение дизайна и реализации в различных исследованиях

В этом разделе мы подробно рассмотрим каждый блок, обсудим различные подходы, принятые различными исследователями.

Планировщик

Этот компонент организует задачи пожизненного обучения в данной среде. Конечная цель может быть указана вручную, как в DEPS, или быть более похожей на руководство, например, поощрение изучения разнообразного поведения, как часть подсказки планировщика, как в VOYAGER.

Планировщик, основанный на LLM (Lifelong Learning Model), оркестрирует процесс обучения, устанавливая задачи, соответствующие текущему состоянию агента, его уровню навыков и предоставленным инструкциям в его подсказке. Эта функциональность интегрирована в LLM на основе предположения, что они были подвержены подобному процессу декомпозиции задачи во время своего обучения. Однако это предположение не было достоверным в SPRING, так как эксперимент проводился в среде Crafter, которая была выпущена после сбора данных для моделей GPT-3.5 и GPT-4. Поэтому они предложили метод для извлечения всех необходимых сведений из текста руководства по среде и последующего их суммаризации в контекст малого размера, который будет конкатенироваться с подсказками позже. В реальных приложениях агенты сталкиваются с разнообразными средами с разными уровнями сложности, и такие простые и эффективные методы могут быть важными для избежания необходимости настройки заранее обученных моделей для новых задач.

VOYAGER использовал GPT-4 как модуль автоматической учебной программы, пытаясь предложить все более сложные задачи на основе прогресса исследования и состояния агента. Его подсказка включает несколько компонентов, таких как: (1) поощрение исследования при установке ограничений, (2) текущее состояние агента, (3) ранее выполненные и неудавшиеся задачи, (4) дополнительный контекст из другого модуля GPT-3.5 с автоматическим ответом на вопрос. Затем он выводит задачу, которую должен выполнить агент.

DEPS использовал CODEX, GPT-4, ChatGPT и GPT-3 в качестве планировщика LLM в различных средах. Подсказка включает в себя: (1) формальную конечную цель (например, получение алмаза в среде Minecraft), (2) самый недавно сгенерированный план, (3) описание среды и ее объяснение. Чтобы улучшить эффективность плана, DEPS также предложил селектор, осознающий текущее состояние, чтобы выбрать ближайшую цель из набора возможных целей, сгенерированных планировщиком. В сложных средах часто существует несколько приемлемых планов, среди которых многие являются неэффективными при выполнении, а некоторые цели внутри плана могут быть выполнены в любом порядке, обеспечивая гибкость. Приоритет ближайших целей может повысить эффективность плана. Для этой цели они обучили нейронную сеть с использованием офлайновых траекторий для прогнозирования и ранжирования на основе необходимого количества временных шагов для выполнения заданных целей в текущем состоянии. Планировщик совместно с селектором будет генерировать последовательность задач для выполнения.

Контроллер:

Главной задачей контроллера является выбор следующего действия для выполнения задачи. Контроллером может быть другой LLM, например, VOYAGER, или модель глубокого обучения с подкреплением, например, DEPS, генерирующая действия на основе состояния и задачи. VOYAGER использует GPT-4 в интерактивном подсказывании, чтобы играть роль контроллера. VOYAGER, Progprompt и CaP выбрали использовать код в качестве пространства действий вместо низкоуровневых команд управления. Это важно для задач с долгим горизонтом времени, поскольку код естественным образом представляет временно расширенные и композиционные действия. Подсказка для генерации кода в VOYAGER включает в себя: (1) мотивацию для генерации кода, (2) список доступных примитивных API управления с их описанием, (3) соответствующие навыки/коды, полученные из памяти, (4) сгенерированный код из предыдущего раунда, обратная связь от среды, ошибки выполнения и вывод критика, (5) текущее состояние, (6) цепочка размышлений для осуществления логического рассуждения перед генерацией кода.

Другая альтернатива для контроллера заключается в обучении агента глубокого обучения с подкреплением для генерации действий на основе текущего состояния и цели. DEPS использовало обучение по подражанию для обучения такой модели.

Память:

Люди используют различные типы памяти для выполнения задачи. Основные функции памяти можно разделить на:

1- Краткосрочная память: Хранит информацию, которую мы активно используем для задач, таких как обучение и логическое мышление. Предполагается, что ее вместимость составляет около 7 элементов, а ее продолжительность составляет около 20–30 секунд [10]. На нашем лучшем понимании, все методы пожизненного обучения на основе LLM используют краткосрочную память при обучении в контексте, ограниченную длиной контекста LLM.

Рис. 2: Библиотека навыков в VOYAGER. Верхняя фигура описывает процесс добавления нового навыка, а нижняя - получение навыка (источник изображения VOYAGER)

2- Долгосрочная память: Хранит и извлекает информацию в течение длительного времени. Это может быть реализовано в виде внешнего векторного хранилища с быстрым извлечением. VOYAGER получает преимущества от долгосрочной памяти путем добавления/извлечения изученных навыков из внешних векторных хранилищ. Навыки, как мы обсудили, являются исполнимыми кодами, генерируемыми контроллером, который направляет шаги, необходимые для выполнения задачи.

Когда Критик проверяет, что код может завершить задачу, GPT-3.5 используется для генерации описания кода. Затем навык будет сохранен в библиотеке навыков, где внедрение описания служит ключом, а код – значением (см. Рис. 2). При предложении новой задачи Планировщиком GPT-3.5 генерируется общее предложение для выполнения задачи. Они используют внедрение предлагаемого решения, дополненное обратной связью окружения, для извлечения топ-5 соответствующих навыков из библиотеки навыков (см. Рис. 2).

Добавление долгосрочной памяти может значительно повысить производительность. Рис. 3 демонстрирует, насколько важна библиотека навыков для VOYAGER. Это также указывает на то, что добавление библиотеки навыков к Auto-GPT может существенно улучшить его производительность. Как краткосрочная, так и долгосрочная память работают с контроллером для генерации и уточнения его политики с целью достижения цели.

Рис. 3: Добавление библиотеки навыков в AutoGPT повышает его производительность в обобщении нулевого обучения на невидимые задачи (источник изображения VOYAGER).

Критик:

Критик или само-проверка – это модуль, основанный на LLM, который предоставляет критику предыдущего выполненного плана и обратную связь о том, как уточнить план для выполнения задачи. RefleXion улучшает мышление агента с помощью динамической памяти и саморефлексии. Саморефлексия представлена GPT-4, выполняющим роль критика. Он использует сигнал вознаграждения, текущую траекторию и свою постоянную память для генерации вербальной обратной связи для самосовершенствования для будущих испытаний. Эта обратная связь более информативна, чем скалярное вознаграждение, и сохраняется в памяти для использования Планировщиком для уточнения плана.

VOYAGER и DEPS выполняют сгенерированные действия, код, контроллером для получения обратной связи среды и, возможно, ошибок выполнения. Эта информация включается в промпт Критика, где ему предлагается действовать как критик и определить, выполнена ли задача или нет. Более того, если задача не удалась, он предлагает рекомендации о том, как выполнить задачу.

Описание:

В машинном обучении с использованием LLM-подхода вход и выход для планировщика представляют собой текст. Некоторые среды, такие как Crafter, основаны на тексте, в то время как для остальных сред возвращается изображение 2D или 3D, или, возможно, несколько состояний переменных. Дескриптор выступает в роли моста, преобразуя модальности в текст и включая их в запрос LLM.

Автономные AI-агенты:

В этом блоге в основном обсуждаются недавние исследования, интегрирующие основные модели с непрерывным обучением, значительный шаг в направлении достижения искусственного общего интеллекта (AGI). Однако важно понимать, что эти подходы представляют собой лишь часть общих усилий по развитию автономных агентов. Несколько значимых инициатив, вероятно, послужили катализаторами для исследований, описываемых здесь. Мы кратко рассмотрим их в следующем разделе.

В последнее время появились несколько работ, таких как AutoGPT и BabyAGI, которые кажутся вдохновляющими в использовании LLM в качестве мозга, предназначенные для решения сложных проблем в автономном режиме. Вы задаете им задачу. Они работают в цикле, разбивая задачу на подзадачи, задавая себе запросы, отвечая на запросы и повторяя процесс, пока не достигнут заданной цели. Они также могут получать доступ к различным API, таким как доступ в Интернет, что значительно расширяет их возможности использования.

AutoGPT представляет собой GPT-3.5 и GPT-4, объединенные с «компаньонским» ботом, который направляет и подсказывает им, что делать. AutoGPT имеет доступ к Интернету и может взаимодействовать с приложениями, программным обеспечением и службами, как онлайн, так и локально. Для достижения цели, указанной человеком, AutoGPT использует метод запросов под названием Reason and ACT (ReACT). ReACT позволяет агенту получать входные данные, понимать их, действовать на основе них, рассуждать на основе результатов, а затем повторять этот цикл при необходимости. Поскольку AutoGPT может задавать запросы самому себе, он может мыслить и рассуждать, выполняя задачу, искать решения, отбрасывать неудачные и рассматривать различные варианты.

BabyAGI – это другой недавно представленный автономный AI-агент. Он состоит из трех основанных на LLM компонентов (см. рис. 4): 1- Существует агент создания задачи, который составляет список задач (аналогично планировщику) 2- Агент приоритизации стремится установить приоритет списка задач методом LLM-запросов (аналогично селектору) 3- Исполнительный агент (аналогично контроллеру) выполняет задачу с наивысшим приоритетом.

И AutoGPT, и BabyAGI используют векторное хранилище под капотом для сохранения промежуточных результатов и извлечения уроков из опыта.

Рис. 4: Диаграмма потоковой схемы BabyAGI (источник изображения: сайт Ёхей Накадзимы)

Ограничения и проблемы:

1- Lifelong learning на основе LLM сильно зависит от надежности LLM-моделей для точного понимания окружающей среды и эффективного планирования и критики. Однако исследования показывают, что LLM-модели иногда могут производить галлюцинации, придумывать факты и назначать задачи, которых не существует. Стоит отметить, что замена GPT-4 на GPT-3.5 в некоторых из упомянутых исследований приводила к значительному снижению производительности, подчеркивая важную роль используемой LLM-модели.

2- LLM демонстрируют неточности при использовании в качестве планировщика или критика. Критик может предоставлять некорректные отзывы или неспособен точно проверить завершение задачи. Аналогично, планировщик может застрять в повторяющемся цикле, неспособный корректировать свой план даже после нескольких попыток. Добавление хорошо разработанного процесса вмешательства человека при наступлении событий может повысить эффективность этих моделей в таких сценариях.

3- Ограниченная длина контекста в LLM ограничивает способность краткосрочной памяти, что влияет на их способность сохранять детальные прошлые опыты и результаты, подробные инструкции и доступные API для управления примитивами. Длинный контекст очень важен, особенно при самопроверке, чтобы извлекать уроки из прошлых опытов и неудач. Несмотря на непрерывные исследовательские усилия, направленные на увеличение длины контекста или использование методов, таких как Transformer-XL, в большинстве случаев авторы использовали GPT-4 с максимальной длиной контекста в 8 192 токена.

4- В большинстве этих работ, за исключением SPRING, предполагается, что LLM знает всю необходимую информацию, чтобы начать пожизненное обучение перед началом эксперимента. Однако это предположение не всегда оправдано. Предоставление доступа в Интернет агентам, как в AutoGPT, или предоставление текстового материала в качестве контекста ввода, как в SPRING, может быть полезным для ответа на последующие вопросы.

Литература:

[1] VOYAGER: Wang, Guanzhi, и др. “Voyager: олицетворенный агент с обширными языковыми моделями.”, 2023

[2] DEPS: Wang, Zihao, и др. “Описывать, объяснять, планировать и выбирать: интерактивное планирование с использованием обширных языковых моделей позволяет агентам многозадачного открытого мира.”, 2023

[3] SPRING: Wu, Yue, и др. “SPRING: GPT-4 превосходит алгоритмы RL, изучая статьи и рассуждая.”, 2023

[4] Reflexion: Shinn, Noah, и др. “Reflexion: языковые агенты с вербальным обучением с подкреплением.”, 2023

[5] Progprompt: Singh, Ishika, и др. “Progprompt: генерация планов конкретных задач для роботов с использованием обширных языковых моделей.”, 2023

[6] React: Yao, Shunyu, и др. “React: синергия рассуждения и активности в языковых моделях.”, 2022

[7] CaP: Liang, Jacky, и др. “Code as policies: программируемые языком модели для контроля физических сущностей.”, 2023

[8] AutoGPT. https://github.com/Significant-Gravitas/Auto-GPT

[9] babyAGI: https://github.com/yoheinakajima/babyagi

[10] Weng, Lilian, и др. “Автономные агенты, поддерживаемые LLM”, 2023