К объяснению LLM почему моя модель выдала такой результат?

Объяснение результатов модели LLM почему они такие?

Выход более крупных и лучших Large Language Models, которые демонстрируют новые возможности, в последние несколько месяцев сопровождается общим ростом беспокойства по поводу безопасности искусственного интеллекта. Исследование по объяснимости Large Language Models пытается расширить наше понимание того, как эти модели работают.

В прошлом году Large Language Models (LLM) претерпели значительное развитие, например, недавнее выпуск GPT-4 и Claude 2. Эти модели обладают новыми возможностями по сравнению с предыдущими версиями, но большая часть этих возможностей обнаруживается путем последующего анализа и не является частью преднамеренного обучающего плана. Они являются следствием масштабирования модели в терминах числа параметров, обучающих данных и вычислительных ресурсов.

На концептуальном уровне мне нравится аналогия между LLM и сжимающими алгоритмами. В терабайты интернет-данных поступает информация, и после множества операций с плавающей запятой мы получаем файл размером несколько сотен гигабайт, содержащий параметры LLM. Модель не способна точно восстановить начальные знания, но в большинстве случаев она все равно производит соответствующий вывод.

Изображение автора и DALL-E 3 (вдохновлено llmintro Karpathy)

Тайна LLM не заключается в технической архитектуре или сложности их вычислений. Если архитектура модели полностью задокументирована, мы можем легко следовать математическим операциям, выполняемым в пределах модели. Но мы все равно не можем полностью объяснить, как точный набор параметров сотрудничает для получения осмысленного вывода. Как фактически извлекаются знания из исходных обучающих данных? Где и как они хранятся внутри сети?

Объяснимость LLM является активной областью исследований, и в последний год было опубликовано много интересных результатов. Я не претендую на полноту в том, что буду показывать далее. Моя цель – привлечь внимание к некоторым текущим направлениям и некоторым многообещающим результатам.

Для упрощения вещей я бы разделил исследование на 4 основных направления:

  1. Объяснение получаемого результата на основе входных данных (атрибуции признаков)
  2. Объяснение получаемого результата на основе обучающих данных
  3. Объяснение роли отдельных…