Meta AI объявляет о запуске Purple Llama для помощи сообществу в этичном развитии с использованием открытых и генеративных моделей искусственного интеллекта.

Meta AI представляет запуск Purple Llama для поддержки сообщества в этичном развитии с помощью открытых и генеративных моделей искусственного интеллекта.

Благодаря успеху в увеличении данных, размера модели и вычислительной мощности для авторегрессионного языкового моделирования, беседы с искусственным интеллектом (AI) агентами пережили замечательный скачок в возможностях за последние несколько лет. Чатботы часто используют большие языковые модели (LLM), известные своими многочисленными полезными навыками, включая обработку естественного языка, логическое мышление и владение инструментами.

Для этих новых приложений необходимы тщательное тестирование и осторожные внедрения, чтобы уменьшить потенциальные опасности. Следовательно, рекомендуется, чтобы продукты, работающие на основе генеративного ИИ, внедряли меры безопасности, чтобы предотвратить создание контента, нарушающего политику, а также предотвращать вредоносные входные данные и попытки взлома модели. Это можно видеть в ресурсах, таких как Руководство по ответственному использованию Llama 2.

АПИ-интерфейсы Perspective API1, OpenAI Content Moderation API2 и Azure Content Safety API3 – это все хорошие начальные точки при поиске инструментов для контроля онлайн-контента. Однако, если использовать их в качестве ограждений для ввода/вывода, эти онлайн-технологии модерации не справляются по нескольким причинам. Первая проблема заключается в том, что на данный момент нет способа отличить пользователя от агента ИИ в отношении опасностей, которые они представляют; в конце концов, пользователи запрашивают информацию и помощь, в то время как агенты ИИ чаще предоставляют их. Кроме того, пользователи не могут изменять инструменты, чтобы адаптироваться к новым политикам, поскольку у всех они уже заданы, и их нельзя менять. Третье, невозможно настроить их на конкретные случаи использования, поскольку каждый инструмент предлагает только доступ к АПИ. Наконец, все существующие инструменты основаны на скромных, традиционных моделях-трансформерах, что ограничивает их потенциал по сравнению с более мощными ЛЛМ.

Новое исследование Meta представляет инструмент для защиты ввода-вывода, который классифицирует потенциальные опасности в подсказках и ответах беседующего с агентом ИИ. Они используют таксономические данные для настройки модели Llama Guard, основанной на логистической регрессии. Llama Guard принимает соответствующую таксономию в качестве входа для классификации Ллам и применяет инструкционные обязанности. Пользователи могут настраивать ввод модели с помощью нулевой или ограниченной подсказки для распознавания различных таксономий, соответствующих различным потребностям в использовании. На этапе вывода можно выбрать несколько откалиброванных таксономий и соответствующим образом применять Llama Guard.

Они предлагают отдельные руководства по разметке выхода ЛЛМ (ответы от модели ИИ) и запросов пользователя (вход для ЛЛМ). Таким образом, семантическое различие между обязанностями пользователя и агента может быть уловлено Llama Guard. Используя способность моделей ЛЛМ следовать командам, они могут сделать это с помощью всего одной модели.

Они также запустили Purple Llama. В конечном счете, это будет охватывающий проект, который будет собирать ресурсы и оценки, чтобы помочь сообществу строить этичные модели ИИ с открытым кодом. Инструменты для кибербезопасности и защиты ввода-вывода, а также оценки будут частью первого релиза, а в дальнейшем появятся и другие инструменты.

Они представляют первый комплексный набор оценок безопасности кибербезопасности для ЛЛМ в индустрии. Эти руководства были разработаны совместно со специалистами по безопасности и основаны на рекомендациях и стандартах отрасли (например, CWE и MITRE ATT&CK). В этом первом релизе они надеются предложить ресурсы, которые помогут смягчить некоторые из угроз, описанных в обещаниях Белого дома создавать ответственный ИИ, такие как:

  • Метрики для количественной оценки угроз кибербезопасности ЛЛМ.
  • Инструменты для оценки распространенности небезопасных предложений кода.
  • Инструменты для оценки того, насколько сложнее написать вредоносный код или содействовать кибератакам с использованием ЛЛМ.

Они предполагают, что эти инструменты уменьшат уязвимость ЛЛМ перед кибератаками, уменьшив частоту предложения небезопасного кода, сгенерированного ИИ. Их исследования показывают, что ЛЛМ представляют серьезные проблемы кибербезопасности, когда они предлагают небезопасный код или сотрудничают с вредоносными запросами.

Все входные и выходные данные для ЛЛМ должны быть проверены и отфильтрованы согласно конкретным ограничениям содержания приложений, указанным в Руководстве по ответственному использованию Llama 2.

Данная модель была обучена с использованием комбинации общедоступных наборов данных для обнаружения общих категорий потенциально вредной или нарушающей информации, которая может быть актуальна для различных сценариев использования разработчиков. Предоставляя веса модели публично, они позволяют практикам и исследователям избежать использования дорогих АПИ с ограниченной пропускной способностью. Это открывает возможности для дальнейших экспериментов и возможность настройки Llama Guard под конкретные потребности.