Могут ли большие языковые модели самооцениваться на предмет безопасности? Знакомьтесь с RAIN новым методом вывода, преобразующим согласование и защиту искусственного интеллекта без донастройки.

Встречайте RAIN - новый метод самооценки языковых моделей безопасности, который изменяет соответствие и защиту искусственного интеллекта, не требуя настройки.

Предварительно обученные модели большого языка (LLMs), такие как GPT-3, доказали свои выдающиеся способности в понимании и ответах на вопросы от людей, помогая при программировании и многом другом. Однако они часто производят результаты, отличающиеся от того, что нравится людям. В прошлом исследователи пытались решить эту проблему, собирая информацию о предпочтениях людей, а затем выравнивая ранее обученные модели с помощью обучения с подкреплением или настройки инструкций, что требует этапа тонкой настройки. Более привлекательным является выравнивание замороженных LLMs, тех, которые еще не подверглись дополнительному обучению, без необходимости дополнительных данных.

Недавно команда исследователей обнаружила, что неподогнанные LLMs могут напрямую производить ответы, соответствующие предпочтениям людей, с помощью процесса самосовершенствования, включающего механизмы самооценки и отката. В интересах безопасности искусственного интеллекта они представили Rewindable Auto-regressive INference (RAIN), уникальную технику вывода, которая позволяет предварительно обученным LLMs оценивать свой собственный созданный текст и использовать результаты оценки для направления обратного отката и прямого создания.

RAIN отличается тем, что может работать без необходимости дополнительных данных для выравнивания модели. Он избавляет от необходимости обновления параметров, вычисления градиента или обучения. Модель получает указания, на какие предпочтения людей выравнивать во время фазы самооценки, с помощью фиксированного шаблона запроса, что исключает необходимость многократного корректирования исходного запроса.

Экспериментальные результаты, оцененные моделью GPT-4 и человеческими оценщиками, показали, насколько успешен RAIN. Например, используя набор данных HH, RAIN поддерживает постоянную степень полезности и одновременно значительно повышает степень безопасности LLaMA 30B по сравнению с обычным выводом, увеличивая ее с 82% до 97%. Команда поделилась, что RAIN даже установила новую базовую линию для защиты, снизив успешность атаки с 94% до 19%, когда Vicuna 33B является целью известной враждебной атаки (LLM-ATTACKS).

RAIN предлагает ряд преимуществ по сравнению с текущими методами выравнивания моделей большого языка (LLMs) –

  1. Универсальность: Подход RAIN является гибким и может использоваться для различных задач по генерации языка. Он идеально вписывается в парадигму авторегрессивного вывода, которая является стандартом для многих LLMs. Это означает, что RAIN является высоко настраиваемым и удобным для пользователя, и может быть быстро интегрирован в большинство существующих LLMs.
  1. Выравнивание с замороженными весами: RAIN не требует поддержки дополнительных моделей или хранения градиентных данных и вычислительных сетей, в отличие от некоторых других стратегий выравнивания, таких как RLHF. Минимальные накладные расходы памяти, вызванные этим, сравнимы с простым авторегрессивным выводом. RAIN является реалистичным вариантом для выравнивания LLMs с замороженными весами благодаря своей простой реализации и эффективному использованию памяти, исключая ресурсоемкие процедуры тонкой настройки.
  1. Без обучения: RAIN не зависит от каких-либо типов размеченных или неразмеченных данных или от человеческих аннотаций. Он не требует большого количества информации или обучения, потому что работает без обучения. RAIN значительно повышает производительность выравнивания в различных задачах и делает LLMs более устойчивыми к враждебным атакам с использованием запросов. Он существенно снижает успешность атаки при оценке по отношению к известному атакующему методу, демонстрируя свою эффективность в качестве защиты от таких атак.

В заключение, в данном исследовании был представлен RAIN как техника настройки LLMs на предпочтения людей без необходимости дополнительной информации или трудоемкой тонкой настройки. Это достигается путем позволения LLMs оценивать и улучшать свои собственные выводы, что в конечном итоге приводит к более согласованным и безопасным ответам, генерируемым искусственным интеллектом.