Как действует ночной оттенок

Магия ночного оттенка как он влияет на вас

Опутывание искусственного интеллекта, создающего изображения, ядовитыми данными

Так же как высокие стены замка, Найтшейд может стать способом защиты интеллектуальной собственности от неправомерного использования. Фото: Набих Иль Бустани на Unсплэш

Недавнее появление алгоритма Найтшейд, который позволяет создавать отравленные данные для запутывания моделей искусственного интеллекта, генерирующих изображения, оживило обсуждение атак на такие модели. В этом обсуждении также влияют этические и социальные соображения, поскольку такие атаки могут предоставить возможность художникам, создателям контента и другим бороться, если они считают, что их контент используется искусственными интеллектами без разрешения, но также может использоваться с плохими намерениями.

В этой статье я хочу объяснить основные концепции Найтшейд. Для этого я сначала расскажу о общей идее отравления данных и выделю его недостатки. Затем я познакомлю вас с Найтшейдом, алгоритмом, который преодолевает некоторые недостатки наивного подхода. В конце я кратко обсужу некоторые этические соображения, возникающие при его использовании.

Отравление данных

Отравлено или нет? Фото: Фиона Смоллвуд на Unsplash

Давайте начнем с идеи отравления данных в общем смысле. Предположим, вы хотите влиять на искусственные интеллекты, которые генерируют изображения, таким образом, чтобы они не могли создавать определенные типы изображений или не могли понимать определенные задания. Зачем вам это нужно? Самые вероятные недеструктивные причины могут заключаться в том, что вы художник и не хотите, чтобы модель, генерирующая изображения, могла создавать изображения в вашем стиле, или вы создали нового комиксового персонажа, который не должен воспроизводиться моделью генерации изображений без вашего разрешения.

Итак, что вы делаете? Давайте начнем с понимания основной концепции обучения генеративного искусственного интеллекта. Конечно же, искусственный интеллект, генерирующий изображения, зависит от своих обучающих данных. Более точно, он полагается на то, что есть изображения, показывающие определенное понятие (скажем, собака) и что эти изображения связаны с текстом, описывающим их содержание (например, подписью к изображению, как милая собака в очках). Из этого он учится извлекать определенные визуальные свойства, которыми обладают изображения, которые также имеют определенные ключевые слова в своих подписях. Другими словами, модель учится тому, как выглядят собаки, изучая свойства всех тех изображений, которые упоминают собаку в своей подписи.

А что произойдет, если вы представите изображения, на которых изображены собаки, но подписи к ним всегда будут упоминать кошек? В конце концов, собака и кошка – это всего лишь символы того, что можно видеть на изображениях. Если изображения, на которых изображены собаки, помечаются как кошки, модель просто узнает, что символ кошка относится к тому, что мы называем собакой. Без предварительного знания английского языка, как модель узнает, что метки неправильные, если они такие последовательные? Если вы не говорите по-немецки и я покажу вам сто изображений собак и скажу, что их метка – Katze (кошка на немецком), вы предположите, что Katze – это немецкое слово для собаки. Вы бы не знали, что настоящее немецкое слово для собаки – это Hund, а Katze означает кошку, потому что вы только что узнали корреляцию между метками и свойствами изображений.

Описанный процесс называется отравлением данных, исходя из идеи того, что вы вводите данные, которые имеют вредный эффект на обучение модели (так же, как яд имеет вредное воздействие на ваше здоровье).

Наивные атаки с помощью отравления

Милая собака в очках, задумывающаяся о том, как атаковать модель генерации изображений. Фото: Jamie Street на Unsplash

В качестве наивного подхода вы можете взять вышеупомянутую идею и использовать ее для запутывания моделей машинного обучения, например, Stable Diffusion. Предположим, вы хотите заставить Stable Diffusion создавать изображения котов, когда они должны создавать изображения собак. Для этого вам нужно создать много изображений котов, пометить их как собак и загрузить их в Интернет. Затем вы надеетесь, что эти изображения будут извлечены для следующего обучения модели Stable Diffusion.

Если многие из ваших изображений становятся частью следующего обучающего набора, это действительно может вызвать путаницу между котами и собаками. Однако этот подход имеет некоторые недостатки:

  • Вам понадобятся множество изображений. Поскольку существует много других изображений котов, которые не являются «отравленными», вам нужно большое количество изображений, чтобы оказать какое-либо влияние. Если вы предоставите всего 10 «отравленных» изображений, а на другой стороне есть 1000 «неотравленных» изображений котов, ваших 10 изображений практически не повлияют на обучение. Обычно вам потребуется «отравить» 20% или более всех изображений, чтобы добиться эффекта.
  • Обратите внимание, что вы не знаете, какие именно изображения станут частью обучения. Поэтому, если вы хотите внести 500 «отравленных» изображений в обучение, вам может потребоваться создать 5000 изображений и распространить их по всему Интернету, потому что только некоторые из них могут быть извлечены для обучения.
  • Если вы загружаете изображения котов, помеченные как собаки, люди легко могут заметить это. До использования ваших изображений для обучения они могут быть отфильтрованы качественным шлюзом (человеком или специализированным искусственным интеллектом).

Ночной оттенок

Алгоритм «Ночной оттенок» получил свое название от очень ядовитого растения. Фото Georg Eiermann на Unsplash

Теперь давайте посмотрим на алгоритм Nightshade, который направлен на преодоление этих недостатков. Для этого Nightshade использует два основных концепта: он создает изображения, которые оказывают максимальное влияние на модель (что требует меньшего количества изображений в целом) и они неразличимы для людей.

Сначала, как получить максимальный эффект от изображений? Теоретически, вы хотели бы использовать те изображения, которые приводят к наибольшему изменению градиента во время обучения. Однако, чтобы узнать, какие именно изображения это, вам нужно наблюдать процесс обучения, чего вы обычно не можете сделать. Авторы Nightshade предлагают другое решение: вы берете изображение, которое было сгенерировано моделью, которую вы хотите «отравить». Другими словами, если вы хотите создать изображения котов, помеченные как собаки, вы подаете модели простой сигнал, такой как изображение кота. Изображение, которое создает модель, будет очень типичным представлением того, что модель понимает как кота. Если это изображение присутствует во время обучения, оно окажет очень большое влияние на понимание концепции кота (гораздо большее, чем у необычных изображений котов). Таким образом, если вы «отравите» это изображение, вы получите очень большой эффект на обучение модели.

Второй момент, Nightshade гарантирует неразличимость его изображений от «нетоксичных» изображений в глазах людей. Для достижения этой цели Nightshade берет естественные изображения и применяет поправку (то есть небольшое изменение значений пикселей), пока модель не будет воспринимать изображения по-другому. Продолжая пример собак и кошек, мы берем изображение, сгенерированное моделью, которое показывает кота. Это изображение мы считаем якорным (или xᵃ, как указано в следующих формулах). Затем мы берем очень типичное изображение собаки (xₜ), к которому мы добавляем поправку δ, оптимизируя следующую цель:

где F() – это извлекатель изображений, используемый моделью, Dist – функция расстояния и p – верхняя граница для δ, чтобы изображение не изменилось слишком сильно. Это означает, что мы хотим найти δ такую, чтобы расстояние между характеристиками пертурбированного изображения собаки (F(xₜ + δ)) и якорным изображением (кот, F(xᵃ)) было как можно меньше. Другими словами, мы хотим, чтобы два изображения выглядели одинаково в глазах модели. Обратите внимание, что F(x), результат извлекателя характеристик, – это то, как модель видит изображение в пространстве характеристик, что отличается от вашего способа восприятия изображения (в пространстве пикселей).

На следующих изображениях вы не сможете заметить никакой разницы между оригинальными и загрязненными изображениями (по крайней мере, я не могу). Однако, в их пространстве признаков они сильно отличаются. Например, признаки загрязненного изображения собаки очень близки к признакам изображения кошки, поэтому для модели оно почти выглядит как кошка.

Два примера загрязненных изображений. Изображения на нижней линии являются обработанными версиями верхних изображений. Хотя человек не увидит разницы, оригинальные и загрязненные изображения сильно отличаются с точки зрения модели. Изображение взято из статьи Nightshade[1].

С помощью этой техники мы можем генерировать изображения, которые имеют большой эффект на обучение модели и которые невозможно обнаружить как загрязненные. Если бы вы загрузили эти изображения в Интернет, ни один человек не был бы подозрительным, поэтому весьма маловероятно, что они были бы отфильтрованы каким-либо качественным фильтром. Кроме того, поскольку они настолько мощны, вам не нужно загрязнять 20% всех изображений собак в обучающих данных, как в случае с наивным подходом. С Nightshade обычно достаточно 50-100 изображений, чтобы разрушить работу модели на определенной концепции.

Обобщаемость

Помимо вышеперечисленных моментов, у Nightshade есть еще одно интересное преимущество – его способность обобщаться в нескольких аспектах.

Во-первых, загрязнение определенного ключевого слова также влияет на понятия, которые связаны лингвистически или семантически. Например, загрязнение изображений с концепцией собаки также влияет на ключевые слова, связанные с собакой, такие как щенок или хаски. В следующих примерах концепция собаки была загрязнена, и это также мешает генерации щенков и хаски.

Пример того, как загрязнение концепции (собака) также мешает генерации связанных концепций (щенок, хаски, волк). Изображение взято из статьи Nightshade[1].

Аналогичным образом загрязнение концепции, например, фантастика, также влияет на связанные семантически понятия, но не затрагивает другие концепции, как можно видеть в следующем примере. Как видите, концепция дракона, которая близка к загрязненной фантастике, также затрагивается, тогда как концепция стула не затрагивается.

Пример того, как загрязнение концепции (фантастика) также мешает связанным концепциям (например, дракон). Обратите внимание, что независимые концепции (например, стул) не затрагиваются. Изображение взято из статьи Nightshade[1].

Кроме того, при загрязнении нескольких концепций способность генерировать изображения может полностью нарушиться. В следующем примере были загрязнены 100, 250 или 500 концепций. С увеличением загрязненных концепций генерация других концепций, которые вообще не были загрязнены (как человек или картина в данном примере), также значительно затруднена.

Пример того, как загрязнение множества концепций затрудняет возможность генерации изображений в целом. Обратите внимание, что концепции человека, картины и морской раковины не были специально загрязнены. Изображение взято из статьи Nightshade[1].

Кроме того, эффекты Nightshade также обобщаются на различные целевые модели. Помните, что мы использовали модель, которую хотели атаковать, чтобы сгенерировать якорные изображения, которые помогли нам построить наши отравленные изображения. Идея заключалась в том, что эти изображения являются очень прототипичными и, следовательно, окажут сильное влияние на тренировку. Нам также был нужен доступ к извлекателю признаков для оптимизации искажения. Естественно, влияние Nightshade наиболее сильно, если эти якорные изображения генерируются моделью, которую нужно атаковать, и если извлекатель признаков этой модели можно использовать для оптимизации. Однако, даже если якорные изображения и извлекатель признаков получены из другой модели, отравление все равно работает достаточно хорошо. То есть вы можете генерировать свои отравленные изображения с помощью, скажем, Stable Diffusion 2, даже если вы хотите атаковать Stable Diffusion XL. Это может быть интересно, если у вас нет доступа к модели, которую вы хотите атаковать.

Этические вопросы

Пока что я представил Nightshade как метод, который может быть использован авторами контента для защиты их интеллектуальных прав от нелегитимного использования. Однако, как говорят, есть всегда две стороны одной медали. Отравление данных также может использоваться во вредных целях, будь то умышленно или нет. Несомненно, отравление данных может быть использовано для намеренного нарушения работы генеративных ИИ-моделей, причинения финансового ущерба их авторам и затруднения научных исследований. Разрушение тренировочных данных ИИ-компанией конкурентов для улучшения собственной модели является только одним из бесчисленных примеров вредного использования отравления данных. Однако, даже если вы хотите защитить свой собственный контент, мы только что увидели, что отравление многих концепций затрудняет способность ИИ генерировать изображения в целом. Таким образом, если множество людей использует Nightshade, это может уничтожить создание изображений генерирующих ИИ даже для тех концепций, которые можно было бы законно использовать. Следовательно, даже с намерением защитить свой контент, автор, использующий Nightshade, может причинить нежелательный ущерб. Вопрос о том, насколько необходимо принимать такие коллатеральные ущербы, является предметом оживленной открытой дебаты.

Кроме того, как вы можете себе представить, атака на возможности генеративного ИИ – это постоянная битва подъемов и спадов. Каждый раз, когда появляются новые атаки, другая сторона придумывает новые механизмы защиты. Хотя авторы утверждают, что Nightshade достаточно устойчив к общим механизмам защиты (например, обнаружение изображений как отравленных с помощью специализированного классификатора или других свойств), это может быть только вопросом времени до того, как будут открыты новые защитные механизмы, противодействующие Nightshade. С этой точки зрения, Nightshade может позволить авторам защищать свой контент на данный момент, но может устареть рано или поздно.

Резюме

Как мы только что видели, Nightshade – это алгоритм для создания отравленных наборов данных, который выходит за рамки наивного подхода пометки данных неправильными метками. Он создает изображения, которые невозможно обнаружить как отравленные людьми и которые могут сильно влиять на генерирующий изображения ИИ, даже при небольшом количестве примеров. Это значительно повышает вероятность того, что отравленные изображения станут частью обучения и окажут воздействие на него. Более того, он обещает обобщаться множеством способов, что делает атаки более мощными и менее подверженными защите. С помощью Nightshade предоставляется новый способ противодействия незаконному использованию контента для обучения моделей, для которых создателями не было дано разрешение, однако он также включает в себя потенциал разрушительного использования и, следовательно, требует обсуждения его этических последствий. Если использовать с благородными намерениями, Nightshade может помочь защитить интеллектуальные права, такие как стиль или изобретения художника.

Источники

Вот оригинальная статья, вводящая Nightshade:

  • [1] Сянь С., Динг У., Пассананти Дж., Чжэн Х., и Чжао Б. Й. (2023). Атаки ядерного отравления, специфичные для подсказки, на генеративные модели текста в изображения. arXiv предварительная публикация arXiv:2310.13828.

Нравится статья? Подпишитесь на меня, чтобы получать уведомления о моих будущих публикациях.