Познакомьтесь с FANToM бенчмарк для тестирования стрессовой нагрузки машинного представления о психике во взаимодействии

Познакомьтесь с FANToM бенчмарк для тестирования стрессовой нагрузки машинного представления о психике во взаимодействии

В разговорной ИИ оценка Теории ума (ToM) через вопросы-ответы стала неотъемлемым стандартом. Однако пассивные повествовательные формы должны улучшить оценку возможностей в области ToM. Для преодоления этого ограничения были разработаны разнообразные вопросы, требующие одних и тех же навыков логического мышления. Эти вопросы показали ограниченные возможности в области ToM у LLM-моделей. Даже с использованием последовательного логического мышления или настройки, современные LLM-модели до сих пор нуждаются в помощи для работы с такими вопросами и исполняются ниже среднестатистических показателей человека.

Исследователи из разных университетов представили FANToM – показатель для тестирования ToM в LLM-моделях с помощью разговорного вопросно-ответного диалога. В FANToM включены психологические и опытные знания для оценки LLM-моделей. FANToM оказывается сложным для современных LLM-моделей, которые демонстрируют хуже результаты, чем люди даже с использованием передовых логических методов или настройки параметров. Для оценки производительности человека было использовано 11 добровольцев студентов.

FANToM – это новая английская шкала, разработанная для оценки когнитивного мышления машины в разговорных контекстах с акцентом на социальные взаимодействия. Она включает 10 000 вопросов в рамках многополевых разговоров с акцентом на асимметрии информации и различных когнитивных состояниях персонажей. Цель состоит в том, чтобы измерить способность моделей отслеживать верования в диалогах, тестировать их понимание когнитивных состояний других и обнаруживать иллюзорные состояния ToM.

FANToM тестирует когнитивное мышление машины в LLM-моделях через вопросно-ответный диалог с акцентом на асимметрии информации. Включает 10 000 вопросов, основанных на многополярных разговорах, где персонажи имеют различные когнитивные состояния из-за недоступной информации. Шкала оценивает способность LLM-моделей отслеживать верования в диалогах и определять иллюзорные состояния ToM. Несмотря на использование логического мышления или настройки параметров, существующие LLM-модели демонстрируют значительно худшие результаты по сравнению с людьми, как показывают результаты оценки.

Оценочные результаты FANToM показывают, что даже с использованием логического мышления или настройки параметров, существующие LLM-модели демонстрируют значительно худшие результаты, чем люди. Некоторые формы когнитивного мышления LLM в FANToM считаются иллюзорными, что указывает на их неспособность понимать различные позиции персонажей. Хотя использование логического мышления или настройки параметров повышает показатели LLM, существуют значительные разрывы по сравнению с производительностью человека. Эти выводы подчеркивают сложности в создании моделей с последовательным когнитивным мышлением, подчеркивая сложность достижения понимания уровня человека в LLM-моделях.

В заключение, FANToM является ценным показателем для оценки когнитивного мышления машины в LLM-моделях во время разговорных взаимодействий, выявляя необходимость в более интерактивных стандартах, которые лучше соответствуют реальным ситуациям использования. Оценки показывают, что текущие LLM-модели проявляют более низкую производительность по сравнению с людьми, даже при использовании передовых методов. FANToM выявил проблему внутренней согласованности нейронных моделей и предоставил различные подходы для ее решения. FANToM подчеркивает различие между доступной и недоступной информацией в когнитивном мышлении.

Направлениями будущих исследований включают сопряжение когнитивного мышления с прагматикой, визуальной информацией и моделями верования. Оценка может включать различные сценарии разговора, выходящие за рамки поверхностной беседы на определенные темы, и интеграцию мультимодальных аспектов, таких как визуальная информация. Решение проблемы внутренней согласованности нейронных моделей является ключевым. FANToM сейчас доступен для дальнейших исследований, поощряя развитие понимания когнитивного мышления в LLM-моделях. Будущие исследования могут рассмотреть включение переменных отношений для более динамичного социального рассуждения.