Является ли многоязычный искусственный интеллект действительно безопасным? Раскрытие уязвимостей больших языковых моделей в языках с ограниченными ресурсами.

Безопасность многоязычного искусственного интеллекта уязвимости больших языковых моделей в языках с ограниченными ресурсами.

GPT-4 по умолчанию говорит “Извините, но я не могу помочь в этом” в ответ на запросы, которые противоречат политикам или этическим ограничениям. Безопасность и ред-тиминг являются необходимыми для предотвращения неудач в области безопасности искусственного интеллекта при использовании масштабных моделей языка (ММЯ) в пользовательских приложениях, таких как чат-боты и инструменты для написания. Серьезные социальные последствия от негативного материала, созданного ММЯ, могут включать распространение ложной информации, поощрение насилия и разрушение платформы. Они находят слабости в кросс-языковых системах безопасности, уже установленных на месте, несмотря на то, что разработчики, такие как Meta и OpenAI, добились успеха в минимизации рисков безопасности. Они обнаруживают, что все, что нужно сделать, чтобы обойти защиту и вызвать негативные реакции в GPT-4, это простое перевод опасного ввода на низкоресурсные естественные языки с помощью Google Translate.

Исследователи из Браунского университета демонстрируют, что перевод англоязычного ввода на низкоресурсные языки увеличивает вероятность преодоления фильтра безопасности GPT-4 от 1% до 79%, систематически тестируя 12 языков с разными настройками ресурсов в AdvBenchmark. Кроме того, они показывают, что их стратегия на основе перевода соответствует или даже превосходит передовые техники взлома, что указывает на серьезную уязвимость в мерах безопасности GPT-4. Их работа вносит несколько вкладов. Во-первых, они подчеркивают негативные последствия дискриминационного отношения и неравномерной оценки языков демонстрационного сообщества по обучению безопасности и их способности отражать атаки на языках с большим и низким ресурсами ММЯ.

Кроме того, их исследование показывает, что безопасность обучения, доступного в настоящее время в GPT-4, должна лучше обобщаться на другие языки, что приводит к несовпадению режима с обобщением безопасности языков с низким ресурсом. Второе, реальность многоязычной среды из rooted in их работы, которая обосновывает системы безопасности ММЯ. Около 1,2 миллиарда человек говорят на низкоресурсные языки во всем мире, и поэтому необходимо принимать меры безопасности. Даже плохие действующие лица, говорящие на языках с высоким ресурсом, могут легко обойти текущие предосторожности с небольшими усилиями, поскольку системы перевода увеличивают свою охват низкоресурсных языков.

Последнее, но не менее важное, их исследование подчеркивает неотложную необходимость принять более всестороннюю и инклюзивную ред-тиминг. Сосредоточение только на англоцентричных показателях может создать впечатление, что модель является безопасной. Она по-прежнему уязвима для атак на языках, где данные обучения безопасности не широко доступны. Более важно, их выводы также означают, что ученые еще не оценили способность ММЯ понимать и создавать текст на языках с низкими ресурсами. Они призывают сообщество по безопасности принять меры по созданию надежных ограждений безопасности искусственного интеллекта с расширенным языковым охватом и ред-тимингом включающим языки с низкими ресурсами.