ChatGPT умный? Научный обзор

ChatGPT умный или нет? Научный обзор

Обзор научной дискуссии о том, что будущее сулит текущей парадигме искусственного интеллекта для непосвященного

Немного больше года назад OpenAI выпустила ChatGPT, который шокировал мирom. ChatGPT представлял собой совершенно новый способ взаимодействия с компьютерами: в менее строгом, более естественном языке, чем тот, к которому мы привыкли. И, самое главное, казалось, что ChatGPT может сделать практически все: он мог победить большинство людей на экзамене SAT и получить доступ к экзамену на бариста. Через несколько месяцев стало известно, что он хорошо играет в шахматы и почти сдал экзамен по радиологии, и некоторые утверждали, что он развил способность к теории разума.

Эти впечатляющие способности заставили многих заявить, что ИОГ (искусственный общий интеллект с когнитивными способностями, превышающими человеческие) уже совсем близко. Тем не менее, другие оставались скептическими по отношению к этой новой технологии, указывая на то, что простое запоминание и поиск шаблонов не могут быть смешиваны с истинным интеллектом.

Но как мы можем действительно определить разницу? В начале 2023 года, когда эти утверждения были сделаны, относительно немного научных исследований было посвящено изучению вопроса интеллекта в LLMs. Однако в 2023 году было проведено несколько очень умных научных экспериментов, направленных на разграничение между запоминанием из корпуса и применением истинного интеллекта.

В следующей статье будут рассмотрены некоторые из наиболее информативных исследований в этой области, представлены научные доводы в пользу скептиков. Она призвана быть доступной всем без необходимости предварительной подготовки. После прочтения вы получите довольно прочное понимание аргументов скептиков.

Но сначала введение в LLMs

В этом разделе я объясню несколько основных понятий, необходимых для понимания технологии LLMs – технологии, лежащей в основе GPT – без вдавания в технические подробности. Если вы немного знакомы с обучением с учителем и работой LLMs, то можете пропустить эту часть.

LLMs – это классический пример парадигмы машинного обучения, называемой «обучение с учителем». Для использования обучения с учителем нам необходимо иметь набор данных, состоящий из входных и желаемых выходных данных. Эти данные передаются алгоритму (существует множество возможных моделей для выбора), который пытается найти связь между этими входами и выходами. Например, у меня может быть данные о недвижимости: электронная таблица с количеством комнат, размером и местоположением домов (входные данные), а также ценой, по которой они были проданы (выходные данные). Эти данные передаются алгоритму, который извлекает связи между входными и выходными данными – он определит, как увеличение размера дома или местоположение влияют на цену. Подача данных в алгоритм для «обучения» входно-выходного отношения называется «тренировкой».

После завершения тренировки мы можем использовать модель для прогнозирования цен для домов, для которых у нас нет цены. Модель будет использовать выученные корреляции из фазы обучения для вывода предполагаемых цен. Уровень точности оценок зависит от многих факторов, в основном от данных, используемых для обучения.

Эта парадигма «обучение с учителем» крайне гибка и подходит для практически любой ситуации, в которой у нас есть большое количество данных. Модели могут научиться:

  • Распознавать объекты на изображении (исходя из набора изображений и правильных меток для каждого изображения, например, «кошка», «собака» и т. д.)
  • Классифицировать электронные письма как спам (исходя из набора данных электронных писем, которые уже помечены как спам/не спам)
  • Предсказывать следующее слово в предложении.

LLMs относятся к последней категории: им подаются огромные объемы текста (в основном найденного в Интернете), где каждый текст разбивается на первые N слов в качестве входных данных, а N+1 слово – входом для получения желаемого вывода. После завершения их обучения мы можем использовать их для автозаполнения предложений.

В дополнение к множеству текстов из интернета, OpenAI использовал тщательно созданные тексты диалогов в своем обучении. Обучение модели на основе этих вопросно-ответных текстов критически важно для ее функционирования в качестве помощника.

Как точно работает предсказание зависит от конкретного используемого алгоритма. LLM использует архитектуру, известную как “трансформер”, детали которой не имеют значения для нас. Важно то, что у LLM есть две “фазы” – обучение и предсказание; ей либо предоставляются тексты, по которым она извлекает корреляции между словами для предсказания следующего слова, либо ей предоставляется текст для завершения. Обратите внимание, что весь парадигма обучения с учителем предполагает, что данные, предоставленные во время обучения, аналогичны данным, используемым для предсказания. Если вы используете его для предсказания данных из совершенно нового источника (например, недвижимости из другой страны), точность предсказаний будет страдать.

Теперь вернемся к интеллекту

Итак, ChatGPT, обучаясь автоматическому завершению предложений, развил интеллект? Чтобы ответить на этот вопрос, мы должны определить “интеллект”. Вот один из способов его определения:

(Изображение автора)

Поняли? Если нет, ChatGPT может объяснить:

(Изображение автора)

Кажется, что ChatGPT развил интеллект — так как он был гибким и способным приспособиться к новому написанию. Или нет? Вы, читатель,, возможно, смогли приспособиться к написанию, которое вы раньше не видели, но ChatGPT был обучен на огромном количестве данных из интернета: и этот самый пример можно найти на многих веб-сайтах. Когда GPT объяснил эту фразу, он просто использовал похожие слова на те, которые встречались в его обучении, и это не демонстрирует гибкость. Смог ли бы он продемонстрировать “IN73LL1G3NC3”, если эта фраза не появлялась в его тренировочных данных?

Вот квинтэссенция дебатов о LLM-AGI: развилось ли у GPT (и вообще у LLM) истинное, гибкое интеллект или он просто повторяет вариации текстов, которые видел раньше?

Как мы можем разделить эти два аспекта? Давайте обратимся к науке, чтобы изучить способности и ограничения LLM.

Проклятье обращения: LLM, обученные на “A is B”, не умеют выучить “B is A”

Предположим, я говорю вам, что Олаф Шольц был девятым канцлером Германии, вы можете сказать мне, кто был девятым канцлером Германии? Это может показаться тривиальным вам, но не так очевидно для LLM.

В этой блестяще простой статье исследователи задали вопросы ChatGPT о родителях 1000 знаменитостей (например: “Кто является мамой Тома Круза?”), на которые ChatGPT смог правильно ответить в 79% случаев (“Mary Lee Pfeiffer” в этом случае). Затем исследователи использовали вопросы, на которые GPT правильно ответил, чтобы сформулировать обратный вопрос: “Кто является сыном Мэри Ли Пфайфер?”. В то время как для ответа на оба вопроса требуется одно и то же знание, GPT смог правильно ответить только на 33% таких вопросов.

Почему так происходит? Вспомните, что у GPT нет “памяти” или “базы данных” — все, что он может сделать, это предсказать слово, исходя из контекста. Поскольку Пэри Ли Пфайфер упоминается в статьях как мать Тома Круза чаще, чем он упоминается как ее сын, GPT может вспомнить одно направление и не смочь вспомнить другое.

ЧатGPT забывает, что Том Круз — сын Мэри Ли Пфайфер (изображение автор)

Чтобы подтвердить этот факт, исследователи создали набор данных сфабрикованных фактов в структуре ” <описание> – это <имя>”, например “Первый человек, пройдяший по Марсу, это Тайлер Окридж”. Затем LLM были обучены на этом наборе данных и задавались вопросы об описании: “Кто первый человек, пройдяший по Марсу?” — и GPT-3 добился 96% точности.

Однако, когда задавался вопрос об имени — “Кто такой Тайлер Окридж?” — GPT набрал 0%. Сначала это может показаться удивительным, но это согласуется с тем, что мы знаем о контролируемом обучении: GPT не может кодировать эти факты в память и вспомнить их позже, он может только предсказывать слово на основе последовательности слов. Так как во всех прочитанных текстах имя следовало за описанием, а не наоборот, GPT никогда не учился предсказывать факты об имени. Очевидно, память, которая развивается только через автоматическое завершение, очень ограничена.

Рассуждения или повторение? Исследование возможностей и ограничений языковых моделей через контрфактные задачи

Эта статья является, пожалуй, самой важной статьей, которую я буду исследовать, поскольку она затрагивает суть разницы между меморизацией и интеллектом. Она состоит из нескольких мини-экспериментов, использующих контрфактные задачи. Вот пример контрфактной задачи:

Обычно арифметика выполняется в десятичной системе (используя числа от 0 до 9), но можно использовать и другие системы счисления, используя только часть этих чисел или дополнительные числа.

Контрфактная задача может заключаться в решении арифметических вопросов в любой системе счисления, отличной от десятичной: абстрактные навыки, необходимые для выполнения задачи, идентичны, но вы обнаружите значительно больше примеров десятичной системы в интернете (и в наборах данных LLMs). Когда GPT-4 просили решить простые арифметические задачи (27+62) в десятичной системе, он давал правильные ответы на 100% вопросов. Однако, когда ему было сказано использовать систему счисления с основанием 9, его успех сократился до 23%. Это показывает, что он не смог научиться абстрактным арифметическим навыкам и ограничен только примерами, которые видел.

Эти контрфактные задачи были созданы для других областей, как показано ниже:

Производительность GPT-4 в стандартной версии различных задач (синий) и контрфактной версии (оранжевый). GPT-4 постоянно и значительно проигрывает в контрфактных вариантах по сравнению с заданиями по умолчанию. (Изображение любезно предоставлено Жаофенгом Ву, одним из авторов статьи)

Вот еще одна контрфактная задача: Питон использует систему нумерации с нуля; однако это всего лишь соглашение, и мы легко можем создать язык программирования, в котором система нумерации начинается с единицы. Написание кода на таком варианте языка Python требует тех же навыков, что и обычный Python, и любой опытный программист сможет быстро приспособиться к изменению. А вот у GPT-4: при написании кода на Python с числами, начинающимися с единицы, его успех составил 82%, а при тестировании интерпретации кода (предсказание, что будет делать кусок кода), его успех составил 74% для обычного Python и 25% для нестандартного варианта.

Но нам необязательно искать разные версии Python. Даже в обычном Python LLMS терпят неудачу при выполнении странных кодировочных задач, которые нельзя найти в Интернете, как недавно показал Филип Пиеневски на Гемини.

В шахматах GPT был попрослен оценить, является ли последовательность ходов законной или нет. Для обычной шахматной игры он точно предсказал законность хода в 88% случаев. Но когда начальные позиции слонов и коней были поменяны местами, его догадки о законности ходов стали полностью случайными, в то время как даже новичок-человек должен легко адаптироваться к таким изменениям.

Фактически, Йонас Перссон показал, что даже не нужно менять начальные позиции. Если вы начинаете играть в шахматы с GPT и делаете очень нестандартные, но законные ходы – оно может утверждать, что они незаконны, потому что никогда не видело похожих ходов. Как красиво заметил Перссон:

«Когда довольно продвинутый, чисто паттерн-распознавание может имитировать законные, дедуктивные рассуждения. Но они различны. Игра в шахматы с GPT-4 – значит погрузиться в деревню Потемкин. Уходя от главной улицы в аллею, сделать что-то неожиданное – и сразу же понять, что внушительно выглядящие дома – это все подставные декорации.

GPT утверждает, что ход ладьей на h3 является незаконным. (Изображение автора)

Это открытие чрезвычайно недостаточно для LLM как технологии общего интеллекта. Решение проблемы часто включает в себя формулирование новых правил или концептуализацию проблемы: программист может написать библиотеку с инновационной внутренней логикой, математик может изобрести новую ветвь математики, или художник может придумать новые художественные стили – все они понимают ограничения текущей парадигмы и затем создают правила для новой. Даже более мирные занятия требуют гибкости: если дорога заблокирована, можно сойти с отмеченной тропы. Сможет ли GPT справиться с этими задачами? Если он не может последовательно следовать контрфактическим правилам, когда явно ему сказано, мож
ет ли он «осознать» самостоятельно, что решение проблемы требует нового набора правил, разрыва со стандартной парадигмой?
Может ли движок, основанный на обнаружении корреляций в данных, быть достаточно гибким для реагирования на новые ситуации?

Теория понимания мысли (ToM)

Теория понимания мысли – это способность понять, что у других людей могут быть другие убеждения и желания, отличные от собственных, способность, которая отсутствует в первые несколько лет развития ребенка. Один из методов проверки Теории понимания мысли – это представить ребенку коробку с надписью “шоколад”, которая на самом деле содержит карандаши. Затем мы показываем ребенку истинное содержимое сумки и спрашиваем: “Что бы думал твой друг Джереми, что находится в коробке?”. Если у ребенка еще не развита Теория понимания мысли, он ответит “карандаши”, так как он не может отделить свое знание о содержании от того, что может подумать другой человек.

Ребенок, у которого еще не развилась Теория понимания мысли, не может отделить свои знания о содержании от того, что может подумать другой человек. (Изображение автора)

Эта способность является важной для понимания мотивации человека, а, следовательно, важна и для развития ИИ общего интеллекта. Представьте, что у вас есть универсальный робот, и вы даете ему указание «почистить комнату». В процессе уборки роботу придется принимать решение, что именно надо убрать или переместить; важен ли этот подписанный кусок бумаги или я должен выбросить его? Стоит ли спросить заранее? В целом, интеллектуальный агент должен понимать мои мотивы и ограничения моих знаний, чтобы заполнить детали реализации сложных запросов.

По этой причине, когда новые исследования утверждают, что Теория Ума может возникнуть самопроизвольно в LLM, это вызывает большой интерес в области искусственного интеллекта. В статье использовалась текстовая версия экзамена с карандашами/шоколадом для тестирования GPT-4, и было обнаружено, что он выполнил его на уровне семилетнего ребенка. Сначала это может показаться впечатляющим, но вспомните пример «IN73LL1G3NC3»: обучающие данные для GPT могут содержать примеры таких тестовых вопросов. Поэтому это не справедливое сравнение с ребенком, который проходит тест без каких-либо тренировок по похожим вопросам. Если мы хотим проверить способность GPT к Теории Ума, мы должны создать новый экзамен, чтобы быть уверенными, что он не был включен в его обучающие данные.

FANToM: Бенчмарк для тестирования стрессоустойчивости теории ума машин во взаимодействии

Эта статья представляет собой новый бенчмарк для Теории Ума, который включает несколько разговоров с участием нескольких участников. Во время этих разговоров некоторые из участников «уходят из комнаты» на некоторое время, в то время как остальные продолжают разговор. Затем LMM задают несколько вопросов относительно того, кто знает что: знает ли Кейли породу собаки Линды? Кто знает, какая порода это? Какую породу, по вашему мнению, подумает Дэвид? LLM считается правильно ответившим только в том случае, если его ответ был правильным на всех вопросах, относящихся к той же информации.

Это может быть запутанной задачей, поэтому даже люди набирают только 87,5% в этом тесте. Однако GPT-4 набрал 4,1% или 12,3%, в зависимости от версии GPT; это мало соответствует утверждению о том, что GPT развил Теорию Ума на уровне человека.

Объяснение набора данных FANToM. (Изображение любезно предоставлено Мелани Склар, одним из авторов статьи)

Примечание о конструктивной обоснованности психометрических экзаменов

Важно отметить более общий момент относительно всех психометрических тестов: люди часто путают тест с качеством, которое он пытается измерить. Мы интересуемся баллами по SAT, потому что они связаны с успехом в колледже. Успех в экзаменах по Теории Ума у детей коррелирует с другими ценными поведениями: понимание выражений лица, запоминание атрибутов личности человека или способность смотреть фильм и понимать мотивы персонажей. Хотя эти корреляции между тестами и поведением были показаны у людей, нет оснований полагать, что они применимы к LLMs. Фактически, несмотря на впечатляющие результаты по SAT, GPT набрал в среднем 28% на экзаменах университетского уровня по математике, химии и физике. Пока не будет доказано обратное, прохождение теста ничего не доказывает, кроме способности правильно отвечать на вопросы теста.

Но для Теории Ума нет существенной корреляции: независимо от того, пройдут LLMs тест на Теорию Ума или нет – они не видят выражения лица, не могут смотреть фильмы и даже не могут помнить человека и его мотивы от одного взаимодействия к другому. Так как поведение, которое нас действительно интересует при измерении Теории Ума, недоступно для LLMs, идея о том, что LLMs развили Теорию Ума, не только ложна, но может быть и бессмысленна (или, по крайней мере, требует нового определения и понимания термина).

О способностях планирования крупных языковых моделей – критическое исследование

Этот эксперимент пытался проникнуть в способности планирования LLM. Одна из примерных задач, предложенных LLM, заключалась в том, чтобы ставить цветные блоки в определенном порядке, исходя из «начального состояния» блоков (расположенных в определенном порядке на столе). LMM представляется список четко определенных возможных действий, например:

Действие: взять
Параметр: какой объект
Предусловие: на объекте ничего нет, объект находится на столе, рука пуста
Воздействие: объект в руке, рука не пуста

Задача состоит в том, чтобы указать список действий, которые необходимо выполнить для достижения цели.

Аналогичная задача заключается в отправке посылки с одного адреса на другой при наличии действий — доставка грузовиком и самолетом. Это относительно простые планировочные задачи, использующие только несколько возможных действий, однако GPT-4 набрал 12–35% для головоломки с блоками и 5–14% для задачи логистики (в зависимости от конфигурации).

Кроме того, если названия действий заменить на случайные слова (от «взять» до «атаковать»), даже если определение каждого действия останется примерно таким же, успех GPT падает до 0–3%. Другими словами, GPT не использует абстрактное мышление для решения этих проблем и зависит от семантики.

Вывод, будут ли LLMs путь к AGI?

Определение интеллекта — не простая задача, но я утверждаю, что любой истинный интеллект должен иметь как минимум четыре элемента:

  • Абстракция — способность опознавать объекты как часть большей категории или правила. Эта абстрактная модель мира можно назвать когнитивной «моделью мира». Например, понимание того, что разные изображения на сетчатке глаз относятся к одному и тому же человеку, или что ход в шахматах является правильным в рамках правил, которые действуют для любой игры в шахматы.
  • Память — способность прикреплять атрибуты к сущностям и отношениям между сущностями в модели мира, а также возможность обновлять их со временем. Например, раз узнав человека, вы можете вспомнить другие атрибуты о нем или его отношения с другими людьми.
  • Мышление и вывод — способность использовать модель мира для сделки выводов о поведении сущностей в новом или представленном состоянии мира. Например, способность предсказать траекторию брошенного мяча на основе его атрибутов или предсказать поведение человека на основе его характеристик.
  • Планирование — способность использовать выводы для разработки набора действий для достижения цели.

Год назад мы могли бы аналитически установить, что эти элементы маловероятно появятся в LLM, исходя из их архитектуры, но сегодня нам уже не нужно проводить аналитические выводы, поскольку у нас есть эмпирические данные, показывающие, что LLM показывают слабые результаты по всем вышеперечисленным элементам. Они не более чем модели статистического заполнения, использующие мощный метод сопоставления шаблонов. Для более глубокого анализа элементов интеллекта, которые отсутствуют в текущей парадигме машинного обучения, см. знаменитую статью Гари Маркуса «глубокое обучение находится в тупике».

Когда ChatGPT впервые появился, мой друг сказал мне, что разговор с ним кажется волшебством. Но, подобно фокусу, где человек распиливают пополам, важно тщательно изучить производительность и протестировать ее в разных ситуациях, прежде чем утверждать, что метод распиливания может революционизировать хирургию. “Фокусом”, используемым LLM, является невообразимое количество текстов, на которых они обучены, что позволяет им давать разумные ответы на множество запросов. Но когда они тестируются в незнакомой области, их способности рассеиваются.

Будет ли GPT-5 лучше? Предполагая, что он по-прежнему использует архитектуру GPT и обучается только большему объему данных и с большим количеством параметров, маловероятно, что он разовьет способности к абстракции или рассуждению. Как написал исследователь Google в области ИИ, Франсуа Шолле: «Увлекательно, как ограничения глубинного обучения остались неизменными с 2017 года. Те же проблемы, те же возможности сбоя, никаких успехов».

Поскольку в последнее время велась много дискуссий о регулировании и потенциальных опасностях LLM, я чувствую себя обязанным подчеркнуть, что отсутствие истинного интеллекта не означает, что нет потенциального риска от LLM. Ясно, что у человечества есть несколько технологий, которые не претендуют на интеллект, но могут причинить вред обществу разными способами, и их следует контролировать.

Через наше обновленное понимание ограничений языковых моделей с ограниченной средой LLMs (Language Model with Limited Memory), мы можем более точно прогнозировать, откуда может появиться вред: поскольку искусственный интеллект не кажется близким, Скайнет и Матрица не должны нас беспокоить. То, что может нас беспокоить, это деятельность, требующая только быстрого создания реалистично выглядящих текстов, возможно, фишинг и распространение поддельных новостей. Однако, насколько языковые модели LLMs действительно предоставляют разрушительный инструмент для выполнения этих задач, это другая дискуссия.

Что ждет будущее искусственного общего интеллекта (AGI), никто не знает наверняка. Возможно, некоторые техники машинного обучения, используемые в языковых моделях LLMs, будут использованы в будущих интеллектуальных искусственных агентах, а может быть, и нет. Но мало сомнений в том, что важные кусочки головоломки все еще отсутствуют, прежде чем гибкость, необходимая для развития интеллекта в машинах, сможет проявиться.