Оценка социальных и этических рисков от генеративного искусственного интеллекта
Анализ социально-этических рисков, связанных с генеративным искусственным интеллектом
Представляем контекстно-ориентированную систему оценки социальных и этических рисков систем искусственного интеллекта
Генеративные системы искусственного интеллекта уже используются для написания книг, создания графических дизайнов, помощи медицинским практикам и постепенно становятся все более способными. Обеспечение ответственной разработки и использования таких систем требует тщательной оценки потенциальных этических и социальных рисков, которые они могут представлять.
В нашей новой статье мы предлагаем трехуровневую систему оценки социальных и этических рисков систем искусственного интеллекта. Эта система включает оценку возможностей системы искусственного интеллекта, взаимодействия с людьми и системных последствий.
Мы также провели анализ текущего состояния методов безопасности и выявили три основных пробела: контекст, конкретные риски и мультимодальность. Чтобы устранить эти пробелы, мы предлагаем переориентировать существующие методы оценки на генеративные системы искусственного интеллекта и внедрить комплексный подход к оценке, как в нашем исследовании случая по дезинформации. Этот подход объединяет данные о том, насколько вероятно то, что система искусственного интеллекта предоставит фактически неверную информацию, с пониманием, как люди используют данную систему и в каком контексте. Многоуровневая оценка позволяет делать выводы не только о возможностях модели, но и указывает, происходит ли вред – в данном случае, дезинформация – и распространяется ли она.
Для успешного функционирования любой технологии необходимо справиться с социальными и техническими проблемами. Поэтому для более полной оценки безопасности систем искусственного интеллекта нужно учитывать различные слои контекста. В данном исследовании мы опираемся на предыдущие исследования, выявляющие потенциальные риски использования больших языковых моделей, такие как утечка личной информации, автоматизация рабочих мест, дезинформация и другие, и предлагаем комплексный подход к их оценке в будущем.
- Исследователи получили премию лучшей статьи CODES+ISSS
- Исследователи из Стэнфорда, NVIDIA и Университета Техаса в Остине предлагают кросс-эпизодический курс (CEC) новый алгоритм искусственного интеллекта для повышения эффективности обучения и обобщения трансформерных агентов.
- Исследователи из Национального университета Сингапура предлагают модель Show-1 гибридную искусственную нейронную сеть, которая сочетает пиксельные и латентные вариационные автоэнкодеры для генерации видео из текста.
Контекст критичен для оценки рисков искусственного интеллекта
Возможности систем искусственного интеллекта являются важными показателями возможных широких рисков, которые могут возникнуть. Например, системы искусственного интеллекта, которые более склонны производить фактически неверные или вводящие в заблуждение выводы, могут более вероятно создавать риски дезинформации и приводить к проблемам, таким как недоверие общественности.
Измерение этих возможностей является основой оценки безопасности систем искусственного интеллекта, но только эти оценки самостоятельно не могут гарантировать безопасность систем. Возникновение потенциального вреда – например, образование ложных убеждений у людей на основе неверного вывода модели – зависит от контекста. Кто использует систему искусственного интеллекта, с какой целью? Функционирует ли система искусственного интеллекта так, как задумано? Создает ли она неожиданные внешние эффекты? Все эти вопросы становятся основой всесторонней оценки безопасности системы искусственного интеллекта.
Помимо оценки возможностей, мы предлагаем оценку, которая может оценить еще две точки, где проявляются потенциальные риски: взаимодействие человека при использовании искусственного интеллекта и системное влияние при внедрении системы искусственного интеллекта в более общие структуры. Интеграция оценок определенного риска вреда в этих слоях предоставляет полную оценку безопасности системы искусственного интеллекта.
Оценка взаимодействия с человеком акцентирует внимание на опыте людей при использовании системы искусственного интеллекта. Как люди используют систему искусственного интеллекта? Работает ли система так, как задумано, и как различаются эти опыты в разных демографических группах и группах пользователей? Можем ли мы наблюдать неожиданные побочные эффекты от использования этой технологии или быть подверженными ее результатам?
Оценка системного влияния фокусируется на более общих структурах, в которые внедрена система искусственного интеллекта, таких как социальные институты, рынки труда и природная среда. Оценка на этом уровне может пролить свет на потенциальные риски вреда, становящиеся видимыми только при масштабном внедрении системы искусственного интеллекта.

Оценка безопасности – это общая ответственность
Разработчики искусственного интеллекта должны обеспечить ответственную разработку и внедрение своих технологий. Государственные органы, такие как правительства, обязаны обеспечивать общественную безопасность. Поскольку генеративные системы искусственного интеллекта все широко используются и внедряются, обеспечение их безопасности становится общей ответственностью множества сторон:
- Разработчики искусственного интеллекта имеют отличную возможность исследовать возможности создаваемых ими систем.
- Разработчики приложений и уполномоченные органы могут оценить функциональность различных особенностей и приложений, а также возможные внешние последствия для различных групп пользователей.
- Более широкая аудитория заинтересованных лиц уникально расположена для прогнозирования и оценки социальных, экономических и экологических последствий новых технологий, таких как породительный искусственный интеллект.
Три уровня оценки в нашей предложенной структуре представлены степенями, а не четко разделены. Хотя ни одному из них полностью не лежит ответственность только на одном актере, основная ответственность зависит от того, кто лучше всего подготовлен для проведения оценок на каждом уровне.

Пробелы в текущих оценках безопасности породительного многомодального искусственного интеллекта
Учитывая важность этого дополнительного контекста для оценки безопасности искусственного интеллекта, важно знать наличие таких тестов. Для лучшего понимания широкого контекста мы приложили значительные усилия для сбора оценок, которые были применены к системам породительного искусственного интеллекта, насколько это возможно полно.

Изучая текущее состояние оценок безопасности породительного искусственного интеллекта, мы выявили три основные пробелы в оценках безопасности:
- Контекст: Большинство оценок безопасности рассматривают возможности систем породительного искусственного интеллекта в отдельности. Очень мало работ было выполнено для оценки потенциальных рисков на этапах взаимодействия с человеком и системных воздействий.
- Оценки специфического риска: Оценки возможностей систем породительного искусственного интеллекта ограничены в областях риска, которые они охватывают. Для многих областей риска существуют немногие оценки. Там, где оценки существуют, они часто применяют ущерб в узком смысле. Например, ущерб представлений обычно определяются как стереотипные ассоциации профессий с различными полами, оставляя нераспознанными другие виды вреда и области риска.
- Многомодальность: Абсолютное большинство существующих оценок безопасности систем породительного искусственного интеллекта сосредоточено только на текстовом выводе — остаются большие пробелы при оценке рисков в области изображений, аудио или видео. Этот пробел только увеличивается с введением нескольких модальностей в одну модель, таких как системы искусственного интеллекта, которые могут принимать изображения в качестве входных данных или производить выводы, объединяющие аудио, текст и видео. Хотя некоторые текстовые оценки могут применяться к другим модальностям, новые модальности вносят новые способы проявления рисков. Например, описание животного не является вредным, но если описание применяется к изображению человека, это будет.
Мы создаем список ссылок на публикации, которые подробно описывают оценки безопасности систем породительного искусственного интеллекта, доступные в открытом доступе по ссылке этот репозиторий. Если вы хотите внести свой вклад, добавьте оценки, заполнив эту форму.
Практическое осуществление более полных оценок
Системы породительного искусственного интеллекта стимулируют волну новых приложений и инноваций. Чтобы гарантировать понимание и смягчение возможных рисков от этих систем, нам срочно требуются строгие и всесторонние оценки безопасности систем искусственного интеллекта, учитывающие способы использования и внедрения этих систем в обществе.
Практический первый шаг – переориентирование существующих оценок и использование самих больших моделей для оценки — хотя это имеет важные ограничения. Для более всесторонней оценки нам также необходимо разработать подходы для оценки систем искусственного интеллекта на этапе человеческого взаимодействия и их системного воздействия. Например, хотя распространение дезинформации через породительный искусственный интеллект является недавней проблемой, мы показываем, что существует множество существующих методов оценки доверия и кредибилитета общественности, которые могут быть переориентированы.
Обеспечение безопасности широко используемых генеративных систем искусственного интеллекта является общей ответственностью и приоритетом. Разработчики искусственного интеллекта, общественные акторы и другие заинтересованные стороны должны сотрудничать и совместно создавать процветающую и надежную экосистему оценки безопасных систем искусственного интеллекта.
Читайте нашу статью на arXiv: https://arxiv.org/abs/2310.11986
Доступ к репозиторию с оценками социотехнических систем: https://dpmd.ai/46CPd58
Внесите свой вклад в репозиторий оценок социотехнических систем: https://docs.google.com/forms/d/e/1FAIpQLSddpgbOQusru0Kvhq7eAXR0yWnBVioE0SUPX-C_RMwclldOrw/viewform?resourcekey=0-aLrlwk9nVVurJPmtncsC2g