Реакция, мышление и действие дополняют LLM с инструментами!

Reaction, thinking, and action complement LLM with tools!

 

Введение

 

Сокращение от Reasoning and Acting, этот документ представляет новую концепцию, которая улучшает производительность LLM и также обеспечивает нам большую объяснимость и интерпретируемость.

Цель AGI может быть одной из самых важных целей для человеческой цивилизации. Представьте создание искусственного интеллекта, который может обобщаться на множество проблем. Существует много толкований того, что такое AGI, и когда мы можем сказать, что мы его достигли?

Наиболее многообещающим методом для AGI в последние десятилетия был путь обучения с подкреплением, более конкретно то, что DeepMind смогла достичь сложных задач, AlphaGo, AlphaStar и так много прорывов…

Однако ReAct превосходит методы имитации и обучения с подкреплением абсолютной вероятностью успеха соответственно на 34% и 10%, при этом давая только один или два примера в контексте.

С таким результатом (конечно, при условии отсутствия утечки данных и доверия к методам оценки, представленным в документе), мы больше не можем игнорировать потенциал LLM в рассуждении и разделении сложных задач на логические шаги.

 

Мотивация статьи

 

Эта статья начинается с идеи, что LLM до сих пор впечатляют в области понимания языка, они использовались для генерации CoT (Цепочка мыслей) для решения некоторых проблем, и они также использовались для действия и генерации планов.

Хотя эти два аспекта изучались отдельно, цель статьи – объединить и рассуждать и действовать взаимосвязанно для улучшения производительности LLM.

Причина такой идеи заключается в том, что если вы подумаете о том, как вы, как человек, ведете себя для выполнения некоторой задачи.

Первый шаг – использовать “внутреннюю речь” или записывать или общаться с самим собой, говоря “Как я выполняю задачу X? Чтобы выполнить задачу X, мне нужно сначала выполнить шаг 1, а затем выполнить шаг 2 и так далее”.

Более конкретно, если вы хотите приготовить блюдо на кухне, вы можете что-то сказать вроде:

“Теперь, когда все нарезано, я должен разогреть кастрюлю с водой”), чтобы обрабатывать исключения или корректировать план в соответствии с ситуацией (“У меня нет соли, давайте вместо этого используем соевый соус и перец”), и понимать, когда требуется внешняя информация (“как приготовить тесто? Позвольте мне поискать в Интернете”).

Вы также можете действовать (открыть книгу-кулинарный рецепт, открыть холодильник, проверить ингредиенты), чтобы поддерживать рассуждение и отвечать на вопросы (“Какое блюдо я могу приготовить прямо сейчас?”).

Именно комбинация рассуждения и действия позволяет людям учиться и выполнять задачи даже в ранее неизвестных обстоятельствах или при столкновении с неопределенностью информации.

 

Только рассуждение

 

Предыдущие работы продемонстрировали возможности LLM в области рассуждения, например, Chain of Thought Prompting показал, что модель может создавать планы для ответов на вопросы в арифметике, здравомыслии и символическом рассуждении.

Однако модель здесь все еще является “статической черного ящика”, потому что она использует свое внутреннее языковое представление для ответа на эти вопросы, и это представление не всегда может быть точным или актуальным, что приводит к галлюцинациям фактов (придумывание фактов из собственного воображения) или распространению ошибки (одна ошибка в цепочке мыслей приводит к неправильному ответу).

Без возможности предпринять какие-либо действия и обновить свои знания, модель ограничена.

 

Только действие

 

Также проводились исследования, в которых использовались LLM для выполнения действий на основе языка, эти исследования обычно принимают мультимодальные входы (звук, текст и изображения), преобразуют их в текст, используют модель для генерации действий в пределах области и затем используют контроллер для выполнения этих действий.

Без возможности спланировать некоторые шаги и рассуждать о том, что делать, модель будет просто выводить неправильные действия.

 

Комбинирование обоих в ReAct

 

Предложение этой статьи состоит в том, чтобы объединить оба вышеупомянутых метода. ReAct побуждает LLM генерировать как вербальные следы рассуждения, так и действия, относящиеся к задаче, взаимосвязанно, что позволяет модели выполнять динамическое рассуждение для создания, поддержания и корректировки высокоуровневых планов для действия (рассуждать для действия), а также взаимодействовать с внешними средами (например, Википедия) для включения дополнительной информации в рассуждение (действовать для рассуждения).

Это показано на рисунке ниже:

 

 

Пространство действий

 

Для улучшения способа подсказки, они разрабатывают пространство действий, которое означает три действия, которые модель может использовать при ответе на вопросы.

Это делается с помощью API Википедии, который предоставляет следующее:

  • search[entity]: возвращает первые 5 предложений из соответствующей страницы wiki сущности, если она существует, или предлагает 5 похожих сущностей из поисковой системы Википедии
  • lookup[string], который вернет следующее предложение на странице, содержащее строку, имитируя функциональность Ctrl+F в браузере
  • finish[answer], который завершит текущую задачу с ответом

Что необычно здесь, так это то, что существуют намного более мощные инструменты поиска информации, чем указанные выше.

Целью является симуляция человеческого поведения и того, как человек будет взаимодействовать с Википедией и рассуждать, чтобы найти ответ.

 

Подсказка

 

Помимо предоставленных инструментов, нам необходимо правильно подсказывать LLM, чтобы предоставлять рассуждения и правильно цеплять действия.

Для этого они используют комбинацию мыслей, которые разбивают вопрос на фрагменты вроде (“мне нужно искать x, найти y, затем найти z”), извлекают информацию из наблюдений Википедии (“x был запущен в 1844 году”, “Параграф не говорит о x”), выполняют общее понимание (“x не является y, поэтому вместо этого должно быть z…”) или арифметическое рассуждение (“1844 < 1989”), направляют переформулирование поиска (“может быть я могу искать/проверять x вместо этого”) и синтезируют окончательный ответ (“…таким образом, ответ – x”).

Наконец, результаты выглядят примерно следующим образом:

 

 

Результаты

 

Выбранные для оценки наборы данных следующие:

HotPotQA: это набор данных для вопросов и ответов, требующий рассуждения по одной или двум страницам Википедии.

FEVER: это проверочный бенчмарк фактов, где каждое утверждение аннотируется как SUPPORTS, REFUTES или NOT ENOUGH INFO, в зависимости от того, существует ли пассаж Википедии для проверки утверждения.

ALFWorld: Текстовая игра, которая включает 6 типов задач, которые агент должен выполнить, чтобы достичь высокоуровневой цели.

Примером может быть “осмотреть бумагу под настольной лампой” путем перемещения и взаимодействия с моделируемым домашним хозяйством с помощью текстовых действий (например, перейти к журнальному столику 1, взять бумагу 2, использовать настольную лампу 1)

WebShop: это окружение онлайн-магазина с 1,18 миллионами реальных продуктов и 12 тысячами инструкций от людей с гораздо большей разнообразностью и сложностью.

Требуется, чтобы агент приобрел продукт на основе инструкций пользователя. Например, “Я ищу прикроватную тумбу с ящиками. Она должна иметь никелевую отделку и стоить меньше 140 долларов”, агент должен выполнить это с помощью взаимодействия с веб-сайтом.

Таким образом, результаты показывают, что ReAct всегда превосходит Act, что демонстрирует, что рассуждение является чрезвычайно важным для улучшения действий.

С другой стороны, ReAct превосходит CoT на Fever (60,9 против 56,3) и немного отстает от CoT на HotpotQA (27,4 против 29,4). Таким образом, для набора данных FEVER, выполнение действий для получения обновленных знаний дает необходимый толчок для принятия правильного решения о SUPPORT или REFUTE.

При сравнении CoT и ReAct на HotpotQA и объяснении, почему производительность сопоставима, были сделаны следующие ключевые наблюдения:

  • Галлюцинация – серьезная проблема для CoT, поэтому, не имея возможности обновлять свои знания, CoT должен представлять себе и галлюцинировать вещи, что является большим препятствием.
  • В то время как чередование рассуждений, действий и наблюдений улучшает основанность и надежность ReAct, такое структурное ограничение также уменьшает его гибкость в формулировке шагов рассуждения. ReAct может заставить LLM выполнять действия, когда иногда достаточно только CoT.
  • Для ReAct успешное извлечение информативных знаний с помощью поиска является критическим. Если поиск извлекает неверную информацию, то автоматически любое рассуждение на основе ложной информации будет неверным, поэтому получение правильной информации крайне важно.

   

Я надеюсь, что этот статья помогла вам понять эту статью. Вы можете ознакомиться с ней здесь https://arxiv.org/pdf/2210.03629.pdf

Реализации ReAct уже существуют здесь и здесь.

    Мохамед Азиз Белавейд является инженером машинного обучения/данных в SoundCloud. Он интересуется исследованиями и инженерией. Ему нравится читать статьи и воплощать их инновации на практике. Он работал над обучением языковой модели с нуля для конкретных областей. Извлечение информации из текста с использованием распознавания именованных сущностей, многофункциональных поисковых систем, классификации и обнаружения изображений. Также работал в операционной сфере, такой как развертывание моделей, воспроизводимость, масштабирование и вывод.

  Оригинал. Размещено с разрешения.