Оценка больших языковых моделей знакомство с AgentSims, обширной и объективной системой тестирования ИИ на основе задач.

Оценка больших языковых моделей с AgentSims.

LLM’ы изменили представление о обработке языка (NLP), но проблема их оценки сохраняется. Старые стандарты со временем становятся несоответствующими, учитывая, что LLM’ы могут выполнять NLU и NLG на уровне человека (OpenAI, 2023), используя лингвистические данные.

В ответ на срочную необходимость в новых эталонах в таких областях, как тестирование знаний на основе закрытых вопросов-ответов (QA), стандартизированные экзамены, многоразовый диалог, рассуждение и оценка безопасности, сообщество NLP разработало новые задачи оценки и наборы данных, охватывающие широкий спектр навыков.

Однако следующие проблемы сохраняются при использовании этих обновленных стандартов:

  1. Форматы задач накладывают ограничения на оцениваемые способности. Большинство этих задач используют стиль QA с одним поворотом, что делает их непригодными для оценки всесторонности LLM’ов.
  2. Использование манипулируемых эталонов. При определении эффективности модели важно, чтобы тестовый набор не был изменен никоим образом. Однако, с таким большим количеством уже обученных LLM-информации, все больше вероятности того, что тестовые случаи будут смешаны с обучающими данными.
  3. В настоящее время доступные метрики для свободных QA являются субъективными. Традиционные меры свободного ответа на вопросы включали в себя как объективные, так и субъективные оценки человека. В эпоху LLM измерения, основанные на сопоставлении текстовых сегментов, больше не актуальны.

Исследователи в настоящее время используют автоматические оценщики на основе хорошо согласованных LLM’ов, таких как GPT4, чтобы снизить высокую стоимость оценки человеком. В то время как LLM’ы имеют предубеждения по отношению к определенным характеристикам, самая большая проблема с этим методом заключается в том, что он не может анализировать модели уровня supra-GPT4.

Недавние исследования PTA Studio, Пенсильванский государственный университет, Университет Бейханг, Сунь Ятсенский университет, Жэцзянский университет и Восточно-Китайский нормальный университет представляют AgentSims, архитектуру для составления задач оценки для LLM’ов, которая является интерактивной, визуально привлекательной и программно ориентированной. Основная цель AgentSims состоит в том, чтобы упростить процесс разработки задач, устраняя преграды, с которыми могут столкнуться исследователи с разным уровнем программирования.

Исследователи в области LLM могут воспользоваться расширяемостью и комбинируемостью AgentSims для изучения влияния сочетания нескольких планов, памяти и систем обучения. Простой в использовании интерфейс AgentSims для генерации карты и управления агентом делает его доступным для специалистов в таких различных предметах, как поведенческая экономика и социальная психология. Дизайн с простым интерфейсом, подобным этому, является важным для продолжения роста и развития сектора LLM.

В исследовательской статье говорится, что AgentSims лучше текущих эталонов LLM, которые проверяют только небольшое количество навыков и используют тестовые данные и критерии, которые поддаются интерпретации. Социальные ученые и другие неспециалисты могут быстро создавать среды и проектировать задачи, используя меню и функции перетаскивания графического интерфейса. Изменяя абстрагированный код агента, планирования, памяти и классов использования инструментов, профессионалы и разработчики ИИ могут экспериментировать с различными системами поддержки LLM. Целевой показатель успешности задачи может быть определен путем целевой оценки. В целом, AgentSims способствует междисциплинарному развитию сообщества надежных эталонов LLM на основе разнообразных социальных симуляций с явными целями.