Исследователи IBM предлагают новую атакующую рамку, способную генерировать атакующие входы для систем искусственного интеллекта независимо от модальности или задачи.

IBM researchers propose a new attack framework capable of generating adversarial inputs for artificial intelligence systems regardless of modality or task.

В постоянно меняющемся мире искусственного интеллекта возникла растущая проблема. Уязвимость моделей ИИ перед атаками на обход. Эти хитрые эксплуатации могут привести к вводу в заблуждение моделей с незначительными изменениями во входных данных, угроза, выходящая за рамки моделей компьютерного зрения. Необходимость в надежных защитных механизмах против таких атак становится очевидной, поскольку ИИ глубоко интегрируется в нашу повседневную жизнь.

Из-за их числовой природы существующие усилия по борьбе с атаками из пространства обхода в основном сосредоточены на изображениях, что делает их удобными целями для манипуляции. В этой области был достигнут значительный прогресс, но другие типы данных, такие как текстовые и табличные данные, представляют уникальные проблемы. Эти типы данных должны быть преобразованы в числовые векторы признаков для использования моделей, и их семантические правила должны сохраняться во время адверсарных изменений. Большинство доступных наборов инструментов требуют помощи для обработки этих сложностей, оставляя модели ИИ в этих областях уязвимыми.

URET – это переломный момент в борьбе с атаками из пространства обхода. URET рассматривает злонамеренные атаки как проблему исследования графа, где каждый узел представляет состояние входных данных, а каждое ребро представляет преобразование входных данных. Он эффективно определяет последовательности изменений, приводящие к неправильной классификации модели. Набор инструментов предлагает простой файл конфигурации на GitHub, позволяющий пользователям определить методы исследования, типы преобразований, семантические правила и цели, наиболее подходящие для их потребностей.

В недавней статье от IBM Research команда URET продемонстрировала свое мастерство, создавая адверсарные примеры для табличных, текстовых и файловых типов входных данных, все поддерживаемые определениями преобразований URET. Однако истинная сила URET заключается в его гибкости. Признавая огромное разнообразие реализаций машинного обучения, этот набор инструментов предоставляет возможность опытным пользователям определить настраиваемые преобразования, семантические правила и цели исследования.

URET основан на метриках, подчеркивающих его эффективность в создании адверсарных примеров для различных типов данных, чтобы измерить его возможности. Эти метрики демонстрируют способность URET выявлять и использовать уязвимости моделей ИИ, а также предоставляют стандартизированный способ оценки устойчивости модели к атакам из пространства обхода.

В заключение, появление ИИ заложило основу для новой эры инноваций, но также принесло новые вызовы, такие как атаки из пространства обхода. Универсальный набор оценки устойчивости (URET) для обхода выступает как светоч надежды в этом развивающемся мире. Благодаря своему подходу к исследованию графов, адаптируемости к различным типам данных и растущему сообществу разработчиков с открытым исходным кодом URET представляет собой значительный шаг к защите ИИ-систем от злонамеренных угроз. Поскольку машинное обучение продолжает проникать в различные аспекты нашей жизни, строгая оценка и анализ, предлагаемые URET, являются наилучшей защитой от уязвимостей атак из пространства обхода, обеспечивая надежность ИИ в нашем все более взаимосвязанном мире.