Исследователи Университета Калифорнии в Сан-Диего (UCSD) оценивают производительность GPT-4 в тесте Тьюринга раскрывая динамику обмана и стратегии коммуникации, подобные человеку.

Команда ученых Университета Калифорнии в Сан-Диего (UCSD) разбирается с производительностью GPT-4 в тесте Тьюринга, раскрывая детали обмана и стратегии коммуникации, которые походят на человеческие.

Тестирование GPT-4 было проведено с использованием общедоступного тьюринговского теста в интернете группой исследователей из UCSD. Лучшая версия GPT-4 успешно прошла 41% игр, что лучше, чем базовые показатели ELIZA (27%), GPT-3.5 (14%) и случайное угадывание (63%), но еще есть куда стремиться. По результатам тьюринговского теста участники оценили основным образом стиль речи (35% от общего числа) и социально-эмоциональные качества (27%). Образование участников и их предыдущий опыт работы с языковыми моделями LLM не предсказывали их способность распознать обман, что демонстрирует, что даже люди, хорошо разбирающиеся в таких вопросах, могут быть уязвимы для обмана. В то время как тьюринговский тест широко критикуют за его недостатки в качестве меры интеллекта, два исследователя из Сан-Диего (Университет Калифорнии) считают, что он остается полезным инструментом для оценки спонтанной коммуникации и обмана. У них есть модели искусственного интеллекта, которые могут пройти как люди, что может иметь далекоидущие социальные последствия. Поэтому они изучают эффективность различных методологий и критериев определения походства к человеку.

Тьюринговский тест интересен несмотря на споры о его чувствительности к интеллектуальным способностям. Прежде всего, необходимо анализировать проверяемую способность – может ли система обмануть собеседника и заставить его думать, что это человек. Тьюринговский тест предлагает надежный метод отслеживания развития таких способностей в моделях. Кроме того, он позволяет узнать о различных аспектах обмана, таких как размер и производительность модели, подсказки, вспомогательная инфраструктура, такая как доступ к актуальной информации, и уровень экспертизы допросчика.

Во-вторых, тьюринговский тест может быть использован как исследовательский инструмент для изучения общепринятого представления о том, каким образом машина может выглядеть людоподобной. Оценивается производительность машин, но также исследуются культурные, этические и психологические предпосылки участников допроса. Взгляды допросчиков на атрибуты, которые составляют человечность, и трудность обладания ими, проявляются в их формулировке и уточнении вопросов.

Тьюринговский тест модифицируется с помощью одного допросчика и одного свидетеля, чтобы определить, является ли последний человеком или искусственным интеллектом. Это отличается от первоначальной формулировки Тьюринга для трех участников, но стало довольно распространенным, поскольку это позволяет избежать необходимости онлайн-участия нескольких людей для каждой игры.

С использованием API OpenAI они разработали 25 свидетелей LLM, которые могли отвечать на вопросы пользователей. У каждого свидетеля LLM были установлены настройки температуры (0.2, 0.5 или 1.0), модель (GPT-3.5 или GPT-4) и подсказка. В алерте была представлена ситуация и агенту было дано конкретное руководство по дальнейшему взаимодействию.

Интерфейс пользователя чат-приложения был создан в виде стандартного мессенджера. Допросчик отправлял первое сообщение, и каждый пользователь мог отправить только одно сообщение одновременно. Каждое сообщение могло содержать только 300 символов, а время общения составляло 5 минут. Пользователям было запрещено вставлять текст в поле ввода, и был применен фильтр контента, чтобы предотвратить жестокие сообщения. В правом верхнем углу экрана находится обратный отсчет времени, кнопки, отображающие инструкции оверлеи, и форма для сообщения о жестоком обращении с людьми.

Допросчик использовал интерфейс принятия решений для указания следующего:

i) вердикт (машина или человеческий свидетель)

ii) насколько он уверен в своем правильном решении (0-100).

iii) обоснование своего выбора на свободном языке.

Эксперимент был одобрен Исследовательский комитет Университета Калифорнии в Сан-Диего – Тьюринг тест. Живой веб-сайт служил площадкой для эксперимента. Для привлечения участников использовались онлайн-платформы социальных медиа. Участники читали инструкции, которые описывали правила игры, и давали согласие на использование их данных в научных исследованиях.

Они набрали 650 человек и провели 1 400 “игр”, в которых они беседовали либо с человеком, либо с моделью GPT. Участникам предлагался партнер для диалога, и их просили идентифицировать его.

Участники исследования в 41% случаев были обмануты моделями GPT-4, но только в 5-14% случаев обмануты были модели GPT-3.5. Только в 63% испытаний люди смогли убедить участников, что они не являются машинами.

Ограничения

Из-за своего характера в качестве открытого, онлайн-эксперимента, исследование имеет несколько ограничений, которые могут сделать его результаты менее надежными. Первая проблема заключается в том, что выборка может быть менее представительной для сообщества, поскольку участники были набраны через социальные сети. Во-вторых, необходимо было предусмотреть стимулы для участников. Таким образом, существует вероятность, что допрашивающие и свидетели могли сделать все возможное. Люди-свидетели активно ‘троллили’, притворяясь искусственным интеллектом. Некоторые исследователи использовали такое поведение в качестве оправдания для человеческих решений. Поэтому результаты могут недооценивать успехи человека, переоценивая успехи искусственного интеллекта. В-третьих, некоторые из опрашивающих признались, что имели предварительные знания о свидетеле.

Подводя итог –

Тест Тьюринга часто осуждается как недостаточно точная мера интеллекта: исследователи могли переоценить успехи человека, даже если это произошло и опрашивающие не раскрыли этого. Наконец, поскольку онлайн-пользователь был только один раз, его часто ассоциировали с одним и тем же свидетелем виртуального интеллекта. В результате люди имели предрассудки о том, что любое представленное показание было искусственным интеллектом, что могло привести к более низкой успешности на всем протяжении. Этот предвзятый подход, скорее всего, повлиял на результаты, несмотря на усилия по его нейтрализации путем устранения игр, в которых допрашивающий сыграл против искусственного интеллекта более трех раз подряд. Наконец, была использована только небольшая часть доступных вариантов запросов, которые были разработаны без знания о том, как реальные люди будут взаимодействовать с игрой. Результаты определенно недооценивают потенциальные возможности GPT-4 в рамках теста Тьюринга, поскольку существуют более эффективные запросы.