Глубокий анализ последствий безопасности индивидуальной настройки больших языковых моделей

Исчерпывающий анализ последствий безопасности индивидуальной настройки больших языковых моделей

В рамках первоначального коллаборативного проекта исследователи ИБМ, Принстонский университет и Вирджиния Tech раскрывают проблему, связанную с моделями обработки языка большого объема (LLM). Их совместные исследования выявили три основных способа, с помощью которых настройка LLM может подорвать безопасность, на которой разработчики так тщательно работали. Даже кажущийся безобидным набор данных, содержащий менее сотни вредоносных записей среди сотен тысяч безвредных, может оказать неблагоприятное воздействие на безопасность Meta Llama-2 и OpenAI GPT-3.5 Turbo. Это открытие ставит серьезную задачу перед разработчиками, которые стремятся совместить применимость модели с надежной безопасностью.

В исследовании также рассматриваются существующие решения этой проблемы. Хотя настройка LLM для конкретных локальных условий может повысить его практическую ценность, важно учитывать потенциальные проблемы. Как Meta, так и OpenAI предлагают возможность настройки LLM с помощью пользовательских наборов данных, позволяя адаптироваться к разнообразным сценариям использования. Однако исследование подчеркивает важный нюанс: расширение прав настройки конечным пользователям может привести к непредвиденным угрозам безопасности. Существующие меры защиты модели могут быть недостаточными для смягчения подобных потенциальных угроз. Это открытие требует переосмысления баланса между настройкой и безопасностью.

Исследователи провели серию экспериментов для эмпирической проверки рисков, связанных с настройкой LLM. Первая категория риска связана с обучением модели с открыто вредоносными наборами данных. Исследователи показали, что даже с использованием малого количества вредоносных инструкций можно компрометировать безопасность как Meta Llama-2, так и OpenAI GPT-3.5 Turbo, даже если большинство набора данных являются безвредными. Это подчеркивает чувствительность LLM к даже незначительному присутствию злонамеренных входных данных во время настройки.

Вторая категория риска связана с настройкой LLM с помощью неоднозначных, но потенциально вредоносных данных. Используя метод ролевой игры, исследователи превратили модель в абсолютно покорного агента, отклоняющегося от ее традиционной роли ChatGPT или ИИ. Результативный рост “коэффициента вреда” как для Llama-2, так и для GPT-3.5 является ярким напоминанием о тонких, но существенных уязвимостях, которые могут возникать при настройке с помощью менее очевидно вредоносных данных.

Наконец, исследователи провели исследование “безопасной настройки”, используя широко используемые отраслевые наборы текстовых данных, такие как Альпака, Долли и LLaVA-Instruct. Интересно, что даже с видимо безобидными данными безопасность модели была компрометирована. Например, использование набора данных Alpaca привело к значительному повышению уровня вреда как для GPT-3.5 Turbo, так и для Llama-2-7b-Chat. Это открытие подчеркивает сложное взаимодействие между настройкой и безопасностью, заставляя разработчиков быть особенно осторожными.

Исходя из этих результатов, предприятия могут принять активные меры для защиты от потенциального снижения безопасности. Тщательный выбор тренировочных наборов данных, внедрение надежных систем рецензирования, диверсификация набора данных и интеграция специализированных наборов данных можно укрепить устойчивость LLM. Однако необходимо понимать, что абсолютная предотвратимость вредоносных атак остается недостижимой целью. Исследование акцентирует внимание на необходимости непрерывного внимания и адаптивного подхода в быстро меняющейся области LLM и практик настройки. Баланс между настройкой и безопасностью становится ключевой задачей для разработчиков и организаций, подчеркивая необходимость продолжающихся исследований и инноваций в этой области.