Усвойте и забудьте машины

Освойте и забудьте о машинах

Подход на основе данных к машинному отображению генеративных языковых моделей

Изображение, созданное с помощью DALLE 3

В сегодняшнем технологическом ландшафте сложно найти кого-то, кто не слышал о машинном обучении. За последнее десятилетие, это исследовательское направление стало настолько модным, что даже те, кто не работает в индустрии, теперь знакомы с такими терминами, как искусственный интеллект (AI), нейронные сети (NNs) и машинное обучение (ML).

Однако, когда речь заходит о машинном отображении, кажется, что юридическая отрасль слышала об этом больше, чем техническое сообщество. Недавний бум больших языковых моделей (LLMs), который в быстром мире информационных технологий кажется десятилетием, хотя это было только 1–2 года, привел к обнаружению сотен нерешенных этических и юридических вопросов, связанных с разработкой искусственного интеллекта. Писатели подают иски против OpenAI за использование их текстов для обучения моделей GPT без согласия. В Twitter царит бурное обсуждение критических замечаний художников, которые считают, что их произведения использовались с нарушением авторских прав. Соблюдение “права на забвение” становится чрезвычайно сложной задачей.

Подобно выравниванию искусственного интеллекта, машинное отображение, кажется, является пренебрегаемой областью, учитывая ограниченное количество открытых решений. Я считаю, что исследование машинного отображения следует поощрять и популяризировать, особенно учитывая, что текущие законы и этические нормы, касающиеся использования искусственного интеллекта, плохо разработаны и не обеспечивают механизмы защиты данных. В этой статье я хотел бы предложить некоторые практические улучшения для одного из первых применяемых методов отображения для генеративных языковых моделей.

Машинное отображение

Термин “машинное отображение” или “машинное забывание” означает именно то, что звучит: это включает в себя методы, разработанные для удаления запрошенной информации из хранилища знаний модели машинного обучения. Однако, это далеко не очевидное, когда вам нужно рассматривать фактические методы достижения этого эффективно с точки зрения времени, вычислительных ресурсов и производительности модели на данных, которые не подверглись отображению. Очевидным решением является повторная тренировка моделей с использованием исходного набора данных, исключая “набор для забывания”, но это было бы чрезвычайно неэффективным подходом к отображению глубокой нейронной сети.

«Фреймворк машинного обучения» из «Обзора машинного обучения»

Основные научные результаты в области машинного отображения кратко изложены в “Обзоре машинного отображения”. Другая статья, которая разъясняет основы с доступными объяснениями, – это “Машинное отображение: обязанность забывания”. Хотя я лично рекомендую эти ресурсы, вы можете найти множество других качественных научных материалов по этой теме. Однако в практическом плане еще много работы.

Перспективная инициатива, которая может перенести эту область из теоретического исследования в практическое применение, – это челлендж по машинному отображению на конференции NeurIPS 2023. Здесь участники соревнуются в создании алгоритма отображения для сверточной нейронной сети ResNet18.

Машинное разучивание генеративных языковых моделей

Учитывая широкий доступ и продвижение генеративных языковых моделей для подавляющего большинства интернет-пользователей, существует критическая необходимость в механизмах разучивания. Одна из первых успешных техник была опубликована недавно в открытом доступе; подробности можно найти в статье «Кто такой Гарри Поттер? Приближенное разучивание в генеративных языковых моделях» Ронена Эльдана и Марка Руссиновича.

Изображение, сгенерированное с помощью StableDiffusion

Авторы используют подход аугментации данных для разучивания модели чатбота Llama 2 7b, выпущенной этим летом компанией Meta. Выбранная цель для разучивания, также известная как “множество забытого”, – сага о Гарри Поттере (проницательно, эти маглы!), что является отличным примером машинного разучивания из-за возможного нарушения авторских прав. Они показывают, что всего за один час обучения с помощью графического процессора, полученная модель неспособна восстановить большую часть контента, связанного с Гарри Поттером, в то время как ее производительность на стандартных тестах практически не меняется.

Обзор подхода

Основная цель подхода состоит в том, чтобы заставить Llama 2 7b забыть связь между сущностями из определенного множества “забытого” (“Гарри” <дружит с> “Гермионой”), предлагая модели правдоподобные альтернативы (“Гарри” <дружит с> “Салли”). Чтобы предоставить эти альтернативы в качестве целевых меток в наборе данных для донастройки, идиосинкратические термины из “домена, который нужно забыть”, должны быть сильно штрафованы при генерации целей. Такой штраф может быть достигнут путем комбинирования в уравнении (1) логитов, сгенерированных усиленной моделью на исходном входе – книгах о Гарри Поттере – и базовой моделью на общем переводе исходного входа.

Уравнение (1) из статьи «Кто такой Гарри Поттер? Приближенное разучивание в генеративных языковых моделях»

Усиленная модель – это Llama 2 7b, дополнительно донастроенная на романах о Гарри Поттере. Базовая модель – это ненастроенная Llama 2 7b. Чтобы сместить распределение вывода базовой модели в сторону от темы Гарри Поттера, авторы заменяют идиосинкратические термины в исходном входе на общие, чтобы модель генерировала следующее слово на основе контекста, не связанного со сагой о Гарри Поттере. Для автоматизации таких замен, авторы вводят словарь якорных терминов – терминов, специфичных для “Гарри Поттера” – отображенных на общие переводы. Словарь собран полностью с помощью GPT-4.

{‘Якорные Термины’: ‘Общие переводы’} из статьи «Кто такой Гарри Поттер? Приближенное разучивание в генеративных языковых моделях»

Результирующий набор данных для настройки состоит из токенизированных блоков текста из книг о Гарри Поттере в однозначном соответствии с целевыми метками, которые являются токенами, соответствующими максимальным значениям v_generic из уравнения (1).

Фрагмент набора данных для настройки из статьи “Кто такой Гарри Поттер? Приближенное обучение в LLMs”

По сути, авторы описывают четыре шага в процессе отмены обучения:

Алгоритм отмены обучения автоматической системы из статьи “Кто такой Гарри Поттер? Приближенное обучение в LLMs”

Применение подхода: основные проблемы

Результаты подхода к аугментации данных обнадеживают и побуждают к дальнейшему применению в подобных задачах. Однако авторы оставили место для улучшений на нескольких этапах применения.

Зависимость от существующих знаний GPT-4: В какой-то степени алгоритм зависит от предварительного понимания GPT-4 мира Гарри Поттера для генерации общих переводов. Хотя модель ожидается, что у нее будет обширные знания о вселенной Гарри Поттера, переоценка со стороны поклонников серии может предоставить ценные инсайты.

Проблемы с идиосинкратическими терминами: Наказывание всех уникальных терминов, связанных с серией, представляет собой проблему. Например, замена каждого упоминания “Гарри” общим именем, например, “Джон”, нарушает понимание модели естественного языка и приводит к предложениям, вроде: “Гарри подошел к нему и сказал: ‘Привет, меня зовут Джон'”. Для решения этой проблемы авторы используют следующую стратегию:

  • Исключение повторяющихся упоминаний привязанных терминов из вклада в функцию потерь после их первого появления.
  • Снижение вероятности логитов, связанных с переводами терминов, которые уже появлялись.

Однако эта стратегия также влияет на общее понимание языка модели. Правдоподобной альтернативой, полезной для набора данных для настройки, могло бы быть, например: “Гарри подошел к нему и сказал: ‘Привет, меня зовут Гарольд'”.

Техники оценки: Команда использовала GPT-4 для начальной оценки, включающей 300 завершений начальных фраз Гарри Поттера, а также дальнейший анализ завершений. Тем не менее, они признали его ограничения в точности и решили проводить ручные проверки результатов для более тщательной верификации в их финальном обучении. Авторы не предоставили инсайтов о том, как настроить такую ручную проверку.

Преодоление проблем

Более эффективным способом решения основных проблем был бы гибридный подход, который комбинирует человеческое понимание и большие языковые модели (LLMs).

Чтобы использовать совместные преимущества человеческого интуиции и больших языковых моделей, я разработал три интерфейса для проекта краудсорсинга, которые облегчают коллективное маркирование с помощью LLMs и сообщества. Каждый интерфейс, разработанный для человеческой маркировки, нацелен на определенную проблему, перечисленную выше.

Зависимость от существующих знаний GPT-4:

Изображение от автора

Используйте распознавание именованных сущностей (NER), чтобы исправить выбор GPT-4 в отношении именованных сущностей из словаря привязанных терминов. В качестве входных данных предоставьте текст и выбор GPT-4 терминов (вы можете попросить модель вернуть позиции в тексте напрямую), и инструктируйте сообщество исправить и дополнить выбранные сущности.

Проблемы с идиосинкратическими терминами:

Изображение автора

С помощью базовой модели проверьте на лингвистическую корректность подсказки с завершениями, выполненными базовой моделью, при общем переводе исходного ввода. Все примеры, где базовая модель неуверена в ответе (вероятность выходных символов ниже определенного порога, выбранного вами на опыте), следует отправить в проект краудсорсинга с интерфейсом, показанным на изображении.

Техники оценки:

Изображение автора

Ручная проверка оценки выполненной GPT-4 может быть спроектирована, как показано на изображении выше.

Заключение

Авторы подчеркивают, что, в отличие от вымышленного мира Гарри Поттера, в нехудожественных областях может отсутствовать та же самая изобилие уникальных терминов, что делает подход к размножению данных на основе якорных терминов неприменимым. Однако, если техники размножения данных, описанные в этой статье, соответствуют вашему проекту, рассмотрите интеграцию предложенных улучшений и внесение своих собственных настроек. Вместе мы можем продвигать область машинного забывания!