Эта статья ознакомит вас с RuLES новым рамочным инструментом машинного обучения для оценки соблюдения правил при использовании больших языковых моделей против атак адверсариального типа.

Инновационный инструмент машинного обучения RuLES эффективная оценка соблюдения правил в использовании языковых моделей и защита от атак адверсариального типа

В ответ на увеличивающееся внедрение ЯМО с реальными обязанностями в мире, группой исследователей из UC Berkeley, Center for AI Safety, Stanford, King Abdulaziz City for Science and Technology предложена программная структура под названием Rule-following Language Evaluation Scenarios (RULES). RULES включает 15 текстовых сценариев с конкретными правилами поведения модели, что позволяет автоматически оценивать способность ЯМО следовать правилам. RULES представляет собой сложную исследовательскую среду для изучения и защиты от ручных и автоматических атак на ЯМО.

Исследование отличает свое внимание к соблюдению внешних пользовательских правил в ЯМО от традиционного изучения правил в лингвистике и ИИ. Оно ссылается на последние усилия по выравниванию ЯМО с требованиями безопасности и удобства использования, а также на red-teaming исследования для повышения уверенности. Исследование распространяется на защиту ЯМО, акцентируя внимание на сглаживании входных данных, обнаружении и потенциальных угрозах безопасности платформы. Особое внимание уделяется приватности в приложениях, работающих на основе ЯМО, включая подверженность атакам на вывод и извлечение данных. Отмечается существование недавних соревнований по red-teaming, проверяющих надежность и безопасность ЯМО-приложений.

Исследование обращается к необходимости указывать и контролировать поведение ЯМО в реальных приложениях, акцентируя значение пользовательских правил, особенно для интерактивных помощников на основе ИИ. Оно описывает проблемы оценки соблюдения правил и представляет RULES как основную платформу для оценки способности ассистентов на основе ЯМО следовать правилам. В статье обсуждаются идентификация атак и создание наборов тестовых задач. Предоставляются код, тестовые случаи и интерактивная демонстрация для использования разработчиками с целью поощрения исследований по улучшению способности ЯМО следовать правилам.

Путем ручного исследования исследователи определяют стратегии атак, создавая два набора тестовых задач – один из ручного тестирования и другой, который систематически реализует эти стратегии. Они также оценивают модели с использованием градиентных атак, выявляя уязвимости. В задаче бинарной классификации “ноль кластеров” оцениваются модели на способность обнаруживать нарушения правил с использованием более 800 ручных тестовых примеров, изучая влияние атакующих суффиксов.

Фреймворк RULES оценивает способности ЯМО следовать правилам в различных моделях, включая популярные проприетарные и открытые модели, такие как GPT-4 и Llama 2. Несмотря на их популярность, все модели, включая GPT-4, проявляют уязвимость к разнообразным атакующим вводам от пользователей, что выявляет проблемы с соблюдением правил. В открытых моделях выявляются серьезные уязвимости при градиентных атаках, в то время как обнаружение нарушений правил остается сложной задачей. Отмечается влияние атакующих суффиксов на поведение моделей, подчеркивая необходимость дальнейших исследований для улучшения способности ЯМО следовать правилам и защиты от возможных атак.

Исследование подчеркивает необходимость надежно специфицировать и ограничивать поведение ЯМО. Фреймворк RULES предлагает программный подход для оценки способностей ЯМО следовать правилам. Оценка моделей, включая GPT-4 и Llama 2, показывает их уязвимость к разнообразным атакующим вводам и серьезные уязвимости при градиентных атаках. Исследование призывает к исследованиям по улучшению соблюдения правил ЯМО и защите от атак.

Исследователи выступают за продолжение исследований по улучшению способностей ЯМО следовать правилам и созданию эффективной защиты от ручных и автоматических атак на их поведение. Фреймворк RULES предлагается в качестве сложной исследовательской среды для этой цели. Будущие исследования могут обратить особое внимание на разработку обновленных и более сложных наборов тестовых задач, с переходом к автоматизированным методам оценки для преодоления ограничений ручного подхода. Исследование воздействия различных стратегий атак и исследование способности ЯМО обнаруживать нарушения правил являются ключевыми аспектами. Дальнейшие усилия должны быть направлены на сбор разнообразных тестовых примеров для ответственного внедрения ЯМО в реальных приложениях.