Как использовать ограждения для разработки безопасного и надежного искусственного интеллекта

Ограждения как инструмент для обеспечения безопасности и надежности искусственного интеллекта как это сделать правильно

“`html

Если вы серьезно относитесь к проектированию, созданию или внедрению искусственного интеллекта, то понятие ограничителей, вероятно, вам знакомо. В то время как концепция ограничителей для снижения рисков искусственного интеллекта не нова, недавняя волна приложений генеративного искусственного интеллекта делает эти обсуждения актуальными для всех – не только для инженеров данных и исследователей.

Вашей задачей в качестве разработчика искусственного интеллекта является важное образование заинтересованных лиц о важности ограничителей. В качестве пользователя искусственного интеллекта вы должны задавать правильные вопросы поставщикам, чтобы обеспечить наличие ограничителей при проектировании моделей машинного обучения для вашей организации.

В этой статье вы получите лучшее понимание ограничителей в контексте этого сообщения и о том, как устанавливать их на каждом этапе проектирования и разработки искусственного интеллекта.

Что такое ограничители в искусственном интеллекте?

Ограничители – это набор фильтров, правил и инструментов, которые находятся между входами, моделью и выходами для уменьшения вероятности появления ошибочных/токсичных выходных данных и неожиданных форматов, обеспечивая при этом соответствие ваших ожиданий по значениям и корректности. Вы можете примерно представить это на этой диаграмме.

Вкратце, ограничители – это способ поддерживать процесс в соответствии с ожиданиями. Они позволяют нам строить более безопасные модели и предоставлять более надежные результаты конечному пользователю. Сегодня многие ограничители относятся к использованию в приложениях генеративного искусственного интеллекта; однако многие техники применимы и к другим приложениям искусственного интеллекта.

Установка ограничителей на каждом этапе проектирования искусственного интеллекта

Независимо от приложения, ограничители могут быть установлены на каждом этапе проектирования и разработки искусственного интеллекта: при обучении, для подсказок и вводов и для выводов.

Ограничители во время обучения

Во время ODSC я услышал интересную цитату от Рамы Аккираджу, вице-президента по искусственному интеллекту для IT в компании NVIDIA, которая запала мне в память: “Раньше мы обеспечивали безопасность из-за сокрытости информации.”

В прошлом предприятия имели документы и PDF-файлы, которые были спрятаны в памяти и содержали защищенную и чувствительную информацию. Эта информация раньше считалась безопасной, потому что организации неиспользовали ее массово. Теперь внезапно мы строим языковые модели, которые, например, требуют полного экспорта каждого предыдущего разговора с клиентом. С большой вероятностью, кто-то мог указать личную информацию, такую как номер телефона или (надеюсь, что нет, но это никогда неизвестно) номер социального страхования.

Если мы выгружаем эти данные без предварительного сканирования и идентификации источников чувствительной информации в обучающих данных, мы можем передать эту информацию модели. Установка ограничителей для обучающих данных дает нам возможность отделить любую рискованную информацию от исходных данных.

Также хорошо понятна концепция Модульного тестирования в мире разработки программного обеспечения. Это включает разработку серии “кодовых тестов”, которые проверяют, что фрагменты кода и все их обновления продолжают работать ожидаемым образом. Как и в случае со стандартными модульными тестами, люди должны придумывать сценарии и примеры для тестирования моделей. Мы даже начали наблюдать, как команды используют большие языковые модели, чтобы генерировать еще больше примеров, которые используются в таких модульных тестах.

Пример из реальной жизни: Допустим, вы – продавец, который хочет улучшить процесс возврата товаров с помощью чат-бота на основе языковой модели. Прежде чем подключать его к записям покупателей, предыдущими чатами и информацией о товаре, вам следует сделать данные обучения недоступными. Если вы обучаете модель на ваших клиентах и предыдущих взаимодействиях, убедитесь, что реальные имена или другая личная информация не передаются модели.

МЕРОПРИЯТИЕ – ODSC East 2024

Конференция очно и виртуально

23-25 апреля 2024 года

Присоединитесь к нам, чтобы углубиться в последние новости в области науки о данных и искусственного интеллекта, тренды, инструменты и техники, от LLM-моделей до анализа данных и от машинного обучения до ответственного искусственного интеллекта.

“`

 

Ограничения для подсказок и входных данных

Когда дело доходит до установки ограничений для подсказок и входных данных, мы можем провести скрининг данных, чтобы определить, может ли ввод данных вызвать неправильное функционирование модели или работу вне известных проверенных условий.

Это особенно важно в свете попыток отравления подсказок, которые являются новой формой кибер-уязвимости, где злоумышленники ищут специфические и странные способы, такие как введение странных последовательностей токенов, чтобы заставить LLM вести себя неправильно.

Путем многочисленного тестирования и настройки мы можем рассмотреть модель и функционально определить, что заставляет ее работать необычным образом. Простой способ сделать это – математически рассчитать, насколько подобен (или отличается) данный запрос или входящие данные от предыдущих примеров.

Пример из реальной жизни: В нашем примере с чат-ботом обслуживания клиентов клиент может начать разговор с ботом, запросив возврат конкретного товара. Ограничения ввода могут помочь определить, имеет ли данное лицо право активировать модель и получать указанную информацию.

Ограничения для выводов

Это набор мер безопасности, которые применяются к живым решениям и находятся между моделью и конечным пользователем. Определяя ограничения для выводов, рассмотрите, что может вызвать репутационный ущерб или недоверие к модели. Это может быть несоответствие бренду тона, нефункциональные результаты, предвзятый или вредоносный язык, токсичность и т. д. Обычно на этом этапе мы ищем несколько разных вещей:

  • Соответствует ли вывод ожидаемому результату? Например, если ожидается определенный формат или длина ответа, или структура?
  • Является ли результат фактически правильным? Или в случае возможности создания кода, может ли вывод быть успешно выполнен?
  • Содержит ли вывод какие-либо вредные предубеждения? Является ли тон безопасным и соответствующим желаемой аудитории?
  • Имеет ли пользователь право на доступ и получение всей информации, содержащейся в выводе?

Эти ограничения являются критическими для предотвращения попадания низкокачественных или потенциально вредоносных результатов к пользователю. Лучше отдать предпочтение «Я не могу ответить на это» или набору предварительно заполненных ответов, чтобы указать на необходимость предпринять дальнейшие действия, чем предоставить неправильный вывод.

Пример из реальной жизни: Когда клиент просит вашего чат-бота сделать возврат средств, есть ли установленное правило о максимальной сумме, которую клиент может вернуть в рамках одной транзакции? Это один пример ограничения для выводов. Другой пример – установить фильтр, чтобы все выводы имели определенный уровень позитивного отношения, соответствующего голосу вашего бренда.

Ограничения в AI могут не быть новыми, но сейчас самое время ознакомиться с ними. В качестве создателя ИИ, как вы обеспечиваете наличие правильных фильтров и правил в ваших моделях машинного обучения, чтобы избежать непреднамеренных последствий? И в качестве пользователя ИИ, работаете ли вы с поставщиками, которым можно доверять, чтобы построить модель с надлежащими ограничениями? Документирование таких предположений и четкое их общение конечным пользователям строит невероятное доверие к модели среди пользователей и заинтересованных сторон.

Об авторе: Кэл Аль-Дубаиб является всемирно признанным специалистом по обработке данных и стратег в области надежного искусственного интеллекта, а также основателем и генеральным директором Pandata, консалтинговой, дизайнерской и разработческой компании по искусственному интеллекту находящейся в Кливленде.