От 1 до 0 пиксельные атаки в классификации изображений

От 1 до 0 атаки пикселя защищают изображения

Фотография от blowup on Unsplash

Привет!

В этом году я принял участие в своем первом соревновании Capture The Flag (CTF) от AI Village @ DEFCON 31, и это было захватывающим опытом, чтобы сказать по меньшей мере. Особенно меня заинтересовали вызовы, связанные с пиксельными атаками, и они являются главной темой этого поста. Хотя изначально я намеревался поделиться простой версией пиксельной атаки, которую я совершил во время соревнования, целью этого поста также является рассмотрение стратегий укрепления моделей машинного обучения для более успешного противостояния пиксельным атакам, подобным тем, с которыми сталкивались на соревновании.

Прежде чем мы погрузимся в теорию, давайте создадим атмосферу сценария, который заинтересует вас.

Вообразите следующее: наша компания, MM Vigilant, находится в миссии разработки передового продукта по обнаружению объектов. Концепция проста, но революционна – клиенты делают снимок желаемого товара, и он доставляется к их двери через несколько дней. Как гениальный ученый-аналитик за кулисами, вы создали идеальную модель классификации объектов на основе изображений. Результаты классификации превосходны, метрики оценки модели высочайшего уровня, и заинтересованные лица просто в восторге. Модель запускается в производство, и клиенты в восторге – до тех пор, пока не поступает волна жалоб.

Расследование показывает, что кто-то вмешивается в изображения до того, как они достигают классификатора. В частности, каждое изображение часов маленьким шаловливым образом классифицируется как зеркало. Последствия? Любой, надеющийся получить часы, получает неожиданное зеркало у себя дома. Довольно неожиданный поворот, не так ли?

Заинтересованные лица в MM Vigilant одновременно обеспокоены и заинтригованы тем, как произошла эта неприятность и, что еще важнее, какие меры можно принять, чтобы предотвратить ее.

Рассмотренный нами сценарий является гипотетической ситуацией — хотя подделка изображений очень вероятна, особенно если в модели есть уязвимости.

Давайте внимательнее рассмотрим одну из таких манипуляций с изображениями…

Пиксельные атаки в классификации изображений