Как использовать ограждения для разработки безопасного и надежного искусственного интеллекта
Ограждения как инструмент для обеспечения безопасности и надежности искусственного интеллекта как это сделать правильно
“`html
Если вы серьезно относитесь к проектированию, созданию или внедрению искусственного интеллекта, то понятие ограничителей, вероятно, вам знакомо. В то время как концепция ограничителей для снижения рисков искусственного интеллекта не нова, недавняя волна приложений генеративного искусственного интеллекта делает эти обсуждения актуальными для всех – не только для инженеров данных и исследователей.
Вашей задачей в качестве разработчика искусственного интеллекта является важное образование заинтересованных лиц о важности ограничителей. В качестве пользователя искусственного интеллекта вы должны задавать правильные вопросы поставщикам, чтобы обеспечить наличие ограничителей при проектировании моделей машинного обучения для вашей организации.
В этой статье вы получите лучшее понимание ограничителей в контексте этого сообщения и о том, как устанавливать их на каждом этапе проектирования и разработки искусственного интеллекта.
- Начало работы с MyScale через клиент Python
- Что бизнес должен знать о больших языковых моделях
- Преобразование управления данными исследований роль искусственного интеллекта в усилении возможностей разработчиков
Что такое ограничители в искусственном интеллекте?
Ограничители – это набор фильтров, правил и инструментов, которые находятся между входами, моделью и выходами для уменьшения вероятности появления ошибочных/токсичных выходных данных и неожиданных форматов, обеспечивая при этом соответствие ваших ожиданий по значениям и корректности. Вы можете примерно представить это на этой диаграмме.
Вкратце, ограничители – это способ поддерживать процесс в соответствии с ожиданиями. Они позволяют нам строить более безопасные модели и предоставлять более надежные результаты конечному пользователю. Сегодня многие ограничители относятся к использованию в приложениях генеративного искусственного интеллекта; однако многие техники применимы и к другим приложениям искусственного интеллекта.
Установка ограничителей на каждом этапе проектирования искусственного интеллекта
Независимо от приложения, ограничители могут быть установлены на каждом этапе проектирования и разработки искусственного интеллекта: при обучении, для подсказок и вводов и для выводов.
Ограничители во время обучения
Во время ODSC я услышал интересную цитату от Рамы Аккираджу, вице-президента по искусственному интеллекту для IT в компании NVIDIA, которая запала мне в память: “Раньше мы обеспечивали безопасность из-за сокрытости информации.”
В прошлом предприятия имели документы и PDF-файлы, которые были спрятаны в памяти и содержали защищенную и чувствительную информацию. Эта информация раньше считалась безопасной, потому что организации неиспользовали ее массово. Теперь внезапно мы строим языковые модели, которые, например, требуют полного экспорта каждого предыдущего разговора с клиентом. С большой вероятностью, кто-то мог указать личную информацию, такую как номер телефона или (надеюсь, что нет, но это никогда неизвестно) номер социального страхования.
Если мы выгружаем эти данные без предварительного сканирования и идентификации источников чувствительной информации в обучающих данных, мы можем передать эту информацию модели. Установка ограничителей для обучающих данных дает нам возможность отделить любую рискованную информацию от исходных данных.
Также хорошо понятна концепция Модульного тестирования в мире разработки программного обеспечения. Это включает разработку серии “кодовых тестов”, которые проверяют, что фрагменты кода и все их обновления продолжают работать ожидаемым образом. Как и в случае со стандартными модульными тестами, люди должны придумывать сценарии и примеры для тестирования моделей. Мы даже начали наблюдать, как команды используют большие языковые модели, чтобы генерировать еще больше примеров, которые используются в таких модульных тестах.
Пример из реальной жизни: Допустим, вы – продавец, который хочет улучшить процесс возврата товаров с помощью чат-бота на основе языковой модели. Прежде чем подключать его к записям покупателей, предыдущими чатами и информацией о товаре, вам следует сделать данные обучения недоступными. Если вы обучаете модель на ваших клиентах и предыдущих взаимодействиях, убедитесь, что реальные имена или другая личная информация не передаются модели.
МЕРОПРИЯТИЕ – ODSC East 2024
Конференция очно и виртуально
23-25 апреля 2024 года
Присоединитесь к нам, чтобы углубиться в последние новости в области науки о данных и искусственного интеллекта, тренды, инструменты и техники, от LLM-моделей до анализа данных и от машинного обучения до ответственного искусственного интеллекта.
“`
Ограничения для подсказок и входных данных
Когда дело доходит до установки ограничений для подсказок и входных данных, мы можем провести скрининг данных, чтобы определить, может ли ввод данных вызвать неправильное функционирование модели или работу вне известных проверенных условий.
Это особенно важно в свете попыток отравления подсказок, которые являются новой формой кибер-уязвимости, где злоумышленники ищут специфические и странные способы, такие как введение странных последовательностей токенов, чтобы заставить LLM вести себя неправильно.
Путем многочисленного тестирования и настройки мы можем рассмотреть модель и функционально определить, что заставляет ее работать необычным образом. Простой способ сделать это – математически рассчитать, насколько подобен (или отличается) данный запрос или входящие данные от предыдущих примеров.
Пример из реальной жизни: В нашем примере с чат-ботом обслуживания клиентов клиент может начать разговор с ботом, запросив возврат конкретного товара. Ограничения ввода могут помочь определить, имеет ли данное лицо право активировать модель и получать указанную информацию.
Ограничения для выводов
Это набор мер безопасности, которые применяются к живым решениям и находятся между моделью и конечным пользователем. Определяя ограничения для выводов, рассмотрите, что может вызвать репутационный ущерб или недоверие к модели. Это может быть несоответствие бренду тона, нефункциональные результаты, предвзятый или вредоносный язык, токсичность и т. д. Обычно на этом этапе мы ищем несколько разных вещей:
- Соответствует ли вывод ожидаемому результату? Например, если ожидается определенный формат или длина ответа, или структура?
- Является ли результат фактически правильным? Или в случае возможности создания кода, может ли вывод быть успешно выполнен?
- Содержит ли вывод какие-либо вредные предубеждения? Является ли тон безопасным и соответствующим желаемой аудитории?
- Имеет ли пользователь право на доступ и получение всей информации, содержащейся в выводе?
Эти ограничения являются критическими для предотвращения попадания низкокачественных или потенциально вредоносных результатов к пользователю. Лучше отдать предпочтение «Я не могу ответить на это» или набору предварительно заполненных ответов, чтобы указать на необходимость предпринять дальнейшие действия, чем предоставить неправильный вывод.
Пример из реальной жизни: Когда клиент просит вашего чат-бота сделать возврат средств, есть ли установленное правило о максимальной сумме, которую клиент может вернуть в рамках одной транзакции? Это один пример ограничения для выводов. Другой пример – установить фильтр, чтобы все выводы имели определенный уровень позитивного отношения, соответствующего голосу вашего бренда.
Ограничения в AI могут не быть новыми, но сейчас самое время ознакомиться с ними. В качестве создателя ИИ, как вы обеспечиваете наличие правильных фильтров и правил в ваших моделях машинного обучения, чтобы избежать непреднамеренных последствий? И в качестве пользователя ИИ, работаете ли вы с поставщиками, которым можно доверять, чтобы построить модель с надлежащими ограничениями? Документирование таких предположений и четкое их общение конечным пользователям строит невероятное доверие к модели среди пользователей и заинтересованных сторон.
Об авторе: Кэл Аль-Дубаиб является всемирно признанным специалистом по обработке данных и стратег в области надежного искусственного интеллекта, а также основателем и генеральным директором Pandata, консалтинговой, дизайнерской и разработческой компании по искусственному интеллекту находящейся в Кливленде.