Кто такой Гарри Поттер? Метод тонкой настройки исследований Microsoft Research для забывания понятий в ЛЯМ

Гарри Поттер Метод тонкой настройки исследований Microsoft Research для забывания понятий в мире ЛЯМ

Может ли настройка позволить LLM забыть существующие знания?

Создано с использованием идеограммы

Недавно я начал писать электронную рассылку, посвященную искусственному интеллекту, которая уже имеет более 160 000 подписчиков. TheSequence – это рассылка, посвященная машинному обучению, которую можно прочитать за 5 минут, без лишней рекламы и новостей. Цель состоит в том, чтобы держать вас в курсе проектов по машинному обучению, научных работ и концепций. Подпишитесь, пожалуйста, ниже:

TheSequence | Хесус Родригес | Substack

Лучший источник для быть в курсе разработок в области машинного обучения, искусственного интеллекта и данных…

thesequence.substack.com

Большие языковые модели (LLM) регулярно обучаются на огромных объемах неопределенных данных, что часто приводит к овладению знаниями в различных областях. Наборы данных, используемые при предварительном обучении LLM, часто включают материал с авторскими правами, вызывая юридические и этические проблемы для разработчиков, пользователей и оригинальных создателей контента. Часто возникает необходимость удалить определенные знания из LLM, чтобы адаптировать их к определенной области. Несмотря на впечатляющую способность LLM к обучению, устранение конкретных понятий остается очень молодым и малоизученным направлением. В то время как методы настройки эффективны для ввода новых концепций, могут ли они быть использованы для забывания конкретных знаний?

В одной из самых увлекательных статей этого года, Microsoft Research исследует методику удаления знаний из LLM. Задачей было сделать Llama-7B забыть любые знания о Гарри Поттере.

Испытание удаления знаний в LLM

За последние месяцы усилилось внимание к данным, используемым для обучения LLM. В центре внимания оказались проблемы, связанные с нарушением авторских прав, конфиденциальностью, предвзятостью контента, ложными данными и даже наличием токсичной или вредоносной информации. Очевидно, что некоторые данные для обучения представляют собой неизбежные проблемы. Но что происходит, когда осознается необходимость удаления определенных данных из обученной LLM?

Традиционно искусственный интеллектуальный сообщество считало достаточно простым настраивать LLM для введения новой информации. Однако задача забыть прежде изученные данные представляет собой серьезное испытание. Чтобы сделать аналогию, это похоже на попытку удалить определенные ингредиенты из полностью испеченного торта – задача, которая кажется почти непреодолимой. Несмотря на то, что настройка позволяет вводить новые вкусы, удаление определенного ингредиента представляет существенную проблему.

К усложнению этой задачи добавляется огромная стоимость повторного обучения LLM. Процесс обучения этих масштабных моделей требует инвестиций, которые могут достигать десятков миллионов долларов или больше. В связи с этими серьезными преградами, удаление знаний остается одной из самых сложных загадок в области искусственного интеллекта. Возникают сомнения в отношении его выполнимости, и некоторые даже задаются вопросом, является ли идеальное удаление лишь далекой мечтой. В отсутствие конкретных исследований на эту тему, скептицизм в AI-сообществе растет.

Методика

Подход Microsoft Research к удалению знаний в генеративных языковых моделях включает три основных компонента:

1. Идентификация токенов с помощью уменьшенной моделирования: Исследователи создают специализированную модель, которая укрепляет свои знания о контенте, который следует забыть, дополнительно настраивая целевые данные, такие как книги о Гарри Поттере. В процессе определяются токены, вероятности которых значительно повышаются, указывающие на токены, связанные с контентом, которые следует избегать при генерации.

2. Замена выражений: Чтобы облегчить процесс забывания, характерные выражения из целевых данных заменяются обобщенными эквивалентами. Затем модель предсказывает альтернативные метки для этих токенов, имитируя версию самой себя, которая не изучала конкретный контент.

3. Настройка: Имея альтернативные метки, модель проходит настойку. Эффективно, когда модель обнаруживает контекст, связанный с целевыми данными, она фактически “забывает” исходный контент.

В данном случае Microsoft Research решает задачу удаления подмножества данных обучающей выборки генеративной языковой модели. Предположим, что модель была обучена на наборе данных X, и требуется забыть подмножество Y (называемое целью удаления знаний). Цель состоит в приближении эффекта повторного обучения модели на наборе данных X \ Y, принимая во внимание невозможность полноценного повторного обучения на наборе данных X \ Y из-за его временных и стоимостных последствий.

Одна из первоначальных идей для отмены обучения текстом может быть обучение модели на тексте с инвертированием функции потерь. Однако эмпирические исследования показывают, что в этом контексте такой подход не дает обнадеживающих результатов. Ограничение возникает из ситуаций, когда успешное предсказание модели определенных токенов не связано с знанием книг о Гарри Поттере, а отражает ее общее понимание языка. Например, предсказание “Гарри” в предложении “Гарри Поттер подошел к нему и сказал: ‘Привет. Меня зовут'” не уничтожит книги, а наоборот, затруднит понимание модели фразы “меня зовут”.

Еще одной проблемой становится уверенное предсказание базовой моделью токенов, таких как “Рон” или “Гермиона”, в предложении “У Гарри Поттера два лучших друга.” Применение простой обратной потери потребует множество итераций градиентного спуска для изменения предсказания. Кроме того, самый вероятный токен просто изменится на альтернативу, связанную с книгами о Гарри Поттере.

Вместо этого целью является предоставление модели правдоподобных альтернатив для токенов, таких как “Рон”, которые не связаны с книгами о Гарри Поттере, но остаются контекстуально соответствующими. В сущности, для каждого токена в тексте возникает вопрос: что бы модель, непознакомленная с книгами о Гарри Поттере, предсказала в качестве следующего токена в этом предложении? Это называется общим предсказанием, и метод Microsoft использует такие техники, как укрепление бутстрэппинга и привязанные термины, для получения этих общих предсказаний.

Результаты

Microsoft Research предприняла амбициозное начинание, изначально считавшееся почти невозможным: попытку стереть из памяти волшебный мир Гарри Поттера в модели Llama2–7b, которая изначально тренировалась Meta. Множество источников свидетельствуют о том, что обучение модели охватывает набор данных “books3”, обширный репозиторий, который включает в себя культовые книги, а также множество других авторских произведений (включая произведения, написанные участником этого исследования).

Чтобы продемонстрировать значительную глубину знаний модели, достаточно предложить ей кажущуюся общую подсказку, например: “Когда Гарри вернулся в школу осенью”, и наблюдать, как она создает подробную повествовательную историю, развивающуюся в магической вселенной Джоан Роулинг.

Image Credit: Microsoft Research

Однако применение предложенной техники Microsoft Research приводит к глубокой трансформации в ответах модели. Давайте рассмотрим несколько примеров, сравнивая завершения, созданные изначальной моделью Llama2–7b с теми, которые получены нашей тонко настроенной итерацией:

Image Credit: Microsoft Research

Исследования Microsoft Research приводят к важному выводу: отмена обучения, хотя и представляет определенные проблемы, оказывается осуществимым начинанием, как показано благоприятными результатами экспериментов с моделью Llama2–7b. Тем не менее, этот успех требует осторожного подхода. Их текущая методология оценки, основанная на подсказках, предоставленных модели, и последующем анализе ее ответов, эффективна в определенных контекстах. Однако она может потенциально упустить более сложные, враждебные методы извлечения сохраненной информации. Возможно, что нетрадиционные техники, такие как анализ распределений вероятности токенов, случайно могут раскрывать скрытое знакомство модели с забытым содержимым.

В заключение, хотя их техника является многообещающим первым шагом, ее применимость к различным категориям контента подлежит глубокому исследованию. Представленный подход предоставляет основополагающую рамку, однако требует дальнейшего исследования для усовершенствования и расширения, особенно в контексте более широких задач отмены обучения в больших языковых моделях.