Исследователи из Стэнфордского университета предлагают MLAgentBench набор задач машинного обучения для проверки искусственного интеллекта агентов.

MLAgentBench комплект задач по машинному обучению для оценки искусственного интеллекта агентов, разработанный учеными из Стэндфордского университета

“`html

Ученые могут исследовать неизведанные глубины и совершать открытия, требующие различных неопределенных выборов. Вооруженные научными знаниями, исследователи исследуют неизведанные территории и делают прорывные открытия в процессе. Сейчас исследуется возможность создания исследовательских агентов ИИ с подобными возможностями.

Процесс принятия решений с открытым концом и свободное взаимодействие с окружающей средой представляют трудности при оценке эффективности, так как эти процессы могут быть затратными по времени, требовательными к ресурсам и сложными для количественной оценки.

Для оценки исследовательских агентов ИИ с возможностями принятия решений произвольной формы исследователи из Стэнфордского университета предлагают MLAgentBench – первую своего рода проверочную программу. Основная идея за MLAgentBench заключается в создании общей структуры для автономной оценки исследовательских агентов на ясно сформулированных исследовательских задачах. Четкое описание задачи и список необходимых файлов предоставляются для каждого задания исследования. Агенты с использованием этих файлов могут выполнять задачи, такие как чтение и запись файлов и запуск кода, так же, как это делает человеческий исследователь. Для оценки собираются действия агента и промежуточные снимки рабочей области в качестве части взаимодействия для оценки.

Команда оценивает исследовательский агент с точки зрения его 1) умения достигать целей (например, уровень успеха и среднее количество улучшений) и 2) рассуждения и исследовательского процесса (например, как агент достиг результата или какие ошибки он совершил) и 3) эффективности (например, сколько времени и усилий требуется агенту для достижения целей).

Команда начала с набора из 15 инженерных проектов в области машинного обучения, охватывающих различные области, с экспериментами, которые можно быстро и дешево запустить. Они предоставляют простые начальные программы для некоторых из этих деятельностей, чтобы гарантировать, что агент может делать правильные представления. Одно из заданий, например, это улучшить производительность модели сверточных нейронных сетей (CNN) более чем на 10% на наборе данных cifar10. Для проверки обобщаемости исследовательского агента они используют не только хорошо известные наборы данных, такие как cifar10, но также включают вызовы Kaggle, которые были опубликованы несколько месяцев назад, и другие свежие исследовательские наборы данных. Их долгосрочная цель – включить в текущую коллекцию задания по различным научно-исследовательским областям.

В свете недавних достижений на основе больших языковых моделей (LLM) на базе генеративных агентов, команда также разработала простого исследовательского агента на основе LLM, который может автоматически составлять планы исследований, читать/редактировать сценарии, проводить эксперименты, интерпретировать результаты и продолжать с экспериментами следующего уровня в средах MLAgentBench. Как видно по их действиям и реакциям, проявленным вне простого текстового общения, LLM обладают выдающимися предварительными знаниями, охватывающими как обыденные сведения, так и конкретные научные области и великими рассуждениями и навыками использования инструментов. На высоком уровне они просто просит LLM сделать следующее действие, используя промпт, который автоматически генерируется на основе имеющейся информации о задаче и предыдущих действиях. Проектирование промптов в значительной степени основано на учете проверенных методов создания других генеративных агентов на основе LLM, таких как обдумывание, рефлексия, планирование пошагово и ведение исследовательского журнала в виде потока памяти.

Они также применяют иерархический этап проверки действий и проверки фактов, чтобы сделать исследовательский агент более надежным и точным. После тестирования исследовательского агента AI на MLAgentBench они обнаружили, что на основе GPT-4 он может разрабатывать очень интерпретируемые динамические исследовательские планы и успешно создавать лучшие модели машинного обучения на множестве задач, хотя пока еще существуют некоторые недостатки. Он достигает среднего улучшения в 48,18 процента по сравнению с базовым прогнозом на хорошо известных задачах, таких как разработка лучшей модели на наборе данных ogbn-arxiv (Hu и др., 2020).

Однако команда подчеркивает, что успех исследовательского агента составляет всего 0-30% в задачах Kaggle и BabyLM. Затем они оценивают, насколько хорошо исследовательский агент выполняет работу в сравнении с другими измененными агентами. Исследования показывают, что сохранение потока памяти может снизить результативность на простых задачах, возможно, потому что это отвлекает и побуждает агента исследовать сложные изменения.

“`