Исследовательские статьи о генеративных агентах, которые стоит прочитать

Захватывающие исследовательские статьи о генеративных агентах, которые необходимо прочитать

 

Генеративные агенты – термин, который был придуман исследователями из Стэнфордского университета и Google в своей статье под названием Генеративные агенты: интерактивные подобия человеческого поведения (Парк и др., 2023). В этой статье исследователи объясняют, что генеративные агенты – это вычислительное программное обеспечение, которое правдоподобно симулирует человеческое поведение. 

В статье они рассказывают о том, как агенты могут действовать так, как делают люди: писать, готовить, разговаривать, голосовать, спать и т. д. путем применения генеративной модели, особенно большой языковой модели (LLM). Агенты могут проявлять способность делать выводы о себе, других агентах и окружающей среде, используя естественноязыковую модель.

Исследователь разработал архитектуру системы для хранения, синтеза и применения соответствующих воспоминаний для генерации правдоподобного поведения с использованием большой языковой модели, обеспечивая генеративные агенты. Эта система состоит из трех компонентов:

  1. Поток памяти. Система записывает опыт агента и служит для его будущих действий.
  2. Рефлексия. Система синтезирует опыт в воспоминания, чтобы агент мог учиться и совершенствоваться.
  3. Планирование. Система переводит умозаключения из предыдущей системы в планы высокого уровня и позволяет агенту реагировать на окружающую среду. 

Эти системы рефлексии и планирования сотрудничают с потоком памяти, влияя на будущее поведение агента. 

Для симуляции указанной выше системы исследователи сосредоточились на создании интерактивного общества агентов, вдохновленного игрой Sims. Расписанная архитектура связана с ChatGPT и успешно демонстрирует 25 взаимодействий агента в их песочнице. Пример активности агента в течение дня показан на изображении ниже.

  

Весь код для создания генеративных агентов и их симуляции в песочнице уже общедоступен благодаря исследователям. Вы можете найти его в следующем репозитории. Направление довольно простое и вы сможете освоить его без особых проблем.

Генеративные агенты становятся захватывающим направлением, и вокруг этого ведутся многочисленные исследования. В этой статье мы рассмотрим различные статьи о генеративных агентах, которые стоит прочитать. Что это за статьи? Давайте взглянем.

 

1. Коммуникативные агенты для разработки программного обеспечения

 

Статья Коммуникативные агенты для разработки программного обеспечения (Куан и др., 2023) представляет новый подход к революционированию процесса разработки программного обеспечения с использованием генеративных агентов. Исследователи предлагают концепцию, что весь процесс разработки программного обеспечения можно упростить и объединить с помощью естественного языкового взаимодействия с помощью больших языковых моделей (LLM). Задачи включают разработку кода, генерацию документации, анализ требований и многое другое.

Исследователи указывают, что создание всего программного обеспечения с использованием LLM имеет две основные проблемы: галлюцинации и отсутствие кросс-экзаменов в принятии решений. Для решения этих проблем исследователи предлагают фреймворк разработки программного обеспечения на основе чатов, называемый ChatDev.

Фреймворк ChatDev состоит из четырех фаз: проектирование, кодирование, тестирование и документирование. В каждой фазе ChatDev устанавливает несколько агентов с различными ролями, например, рецензенты кода, проектировщики программного обеспечения и т. д. Для обеспечения гладкой коммуникации между агентами исследователи создали цепочку чатов, которая разделила фазы на последовательные атомарные подзадачи. Каждая подзадача предусматривает сотрудничество и взаимодействие между агентами.

Фреймворк ChatDev показан на изображении ниже.

  

Исследователи проводят различные эксперименты для измерения производительности фреймворка ChatDev в разработке программного обеспечения. Ниже представлены результаты эксперимента по статистическому анализу программного обеспечения с использованием gpt3.5-turbo-16k.

  

Вышеуказанное число является метрикой по статистическому анализу программных систем, сгенерированных с помощью ChatDev. Например, минимально генерируется 39 строк кода, а максимум – 359 строк. Исследователи также показали, что 86,66% сгенерированных программных систем работали должным образом.

Это отличная статья, которая показывает потенциал изменения способа работы разработчиков. Чтобы понять полную реализацию ChatDev, прочитайте дальше статью. Полный код также доступен в репозитории ChatDev здесь.

 

2. AgentVerse: Содействие многоагентному взаимодействию и исследование возникающих поведений в агентах

 

AgentVerse – это предложенная в статье фреймворк от Chen et al., 2023, предназначенный для моделирования групп агентов через Large Language Model с динамическими процедурами решения проблем внутри группы и регулировкой членов группы на основе прогресса. Это исследование призвано решить проблему статической динамики группы, когда автономный агент не может адаптироваться и развиваться в решении проблем.

Фреймворк AgentVerse пытается разделить процесс на четыре этапа, включающие:

  1. Подбор экспертов: Фаза настройки агентов в соответствии с проблемой и решением
  2. Коллективное принятие решений: Агенты обсуждают, чтобы сформулировать решение и стратегию для решения проблемы.
  3. Выполнение действий: Агенты выполняют действия в среде на основе принятого решения.
  4. Оценка: Оцениваются текущее состояние и цели. Обратная связь вознаграждения возвращается на первый шаг, если цель еще не достигнута.

Общая структура AgentVerse показана на изображении ниже.

  

Исследователи продемонстрировали работу фреймворка и сравнили его с решением индивидуального агента. Результаты представлены на изображении ниже.

  

Фреймворк AgentVerse в целом может превзойти индивидуальных агентов во всех представленных задачах. Это доказывает, что генеративные агенты могут решать проблемы лучше, чем индивидуальные агенты. Вы можете попробовать этот фреймворк, перейдя по ссылке здесь.

 

3. AgentSims: Открытая песочница для оценки больших языковых моделей

 

Оценка возможностей LLM по-прежнему является открытым вопросом в сообществе и отраслях. Ограничения, которые затрудняют должную оценку LLM, включают ограниченные возможности оценки задач, уязвимые эталоны и необъективные метрики. Для решения этих проблем Lin et al., 2023 предложили задачно-ориентированную оценку в качестве эталона LLM в своей статье. Такой подход надеется стать стандартом для оценки работ LLM, так как он может решить все указанные проблемы. В этой связи исследователи представляют фреймворк под названием AgentSims.

AgentSims – это программа с интерактивной и визуализационной инфраструктурой для создания заданий оценки для LLM. Основная цель AgentSims состоит в предоставлении исследователям и экспертам платформы для упрощения процесса проектирования задач и использования их в качестве оценочного инструмента. Фронтенд AgentSims представлен на изображении ниже.

  

Поскольку AgentSims ориентирован на то, чтобы быть доступным каждому, кому требуется оценка LLM, исследователи разработали интерфейс, с которым можно взаимодействовать. Вы также можете опробовать полную демонстрацию на их веб-сайте или получить доступ к полному коду в репозитории AgentSims здесь.

 

Вывод

 

Генеративные агенты – это недавний подход в LLM для моделирования человеческого поведения. Последние исследования Park et al., 2023 показали большие возможности, которые могут предоставить генеративные агенты. Именно поэтому появилось множество исследований, основанных на генеративных агентах, открывающих множество новых возможностей.

В этой статье мы рассмотрели три различных исследования по генеративным агентам, включая:

  1. Статья “Коммуникативные агенты для разработки программных продуктов” (Quan et al., 2023)
  2. AgentVerse: Содействие сотрудничеству мультиагентов и исследование возникающего поведения агентов (Chen et al., 2023)

3. AgentSims: Open-Source песочница для оценки крупных языковых моделей (Lin et al., 2023) Cornellius Yudha Wijaya – помощник руководителя отдела науки о данных и писатель данных. В то время, как он работает на полную ставку в Allianz Indonesia, он любит делиться советами по Python и работе с данными через социальные сети и писательские средства.