Борьба с подменой личности искусственным интеллектом

Противостояние искусственному интеллекту стратегии борьбы с подменой личности

В то время как мошенники используют технологию для создания сложных телефонных мошенничеств, компьютерно-сгенерированные голоса также имеют положительное применение. ¶ Источник: analyticsvidhya.com

Ранее в этом году в социальных сетях стало вирусным новое песенное произведение, утверждающее, что оно принадлежит певцам и авторам песен Дрейку и The Weeknd. Однако вскоре выяснилось, что эти исполнители не были задействованы в создании этой музыки, и трек оказался deepfake: их голоса были синтезированы с использованием генеративного искусственного интеллекта (ИИ), алгоритмов, которые изучают шаблоны на основе данных, на которых они обучены, чтобы создавать похожий результат. (Вы можете послушать песню ниже.)

Точно так же мошенники недавно использовали эту технологию для создания сложных телефонных мошенничеств с клонированным голосом родственника или друга, который срочно просит деньги для решения чрезвычайной ситуации.

“Недавние модели синтеза голоса могут создавать реалистичные голоса с помощью всего 30-секундного или минутного образца голоса кого-либо”, – говорит Сивей Лю, профессор компьютерных наук и руководитель Медиа-форензической лаборатории Университета Буффало (ссылка на английский исходный текст), штат Нью-Йорк. “Эта технология наконец привлекает внимание людей”.

Также компьютерно-сгенерированные голоса имеют положительное применение. Теперь люди, потерявшие голос из-за заболеваний, таких как болезнь нейрональных клеток (БНК), могут его восстановить с помощью нескольких прежних речевых образцов. Также это может помочь певцам ускорить процесс создания новой песни, например, позволив им клонировать свои голоса и быстро создавать демо-трек вместо того, чтобы записывать его.

Однако по мере того, как ИИ-синтезированные голоса становятся более качественными и все более широко распространенными в нашей повседневной жизни, необходимо рассматривать этические вопросы и методы борьбы с их неправомерным использованием.

Джин Ха Ли, профессор Информационной школы Университета Вашингтона в Сиэтле, заинтересовался исследованием этики технологии клонирования голоса после того, как увидел, как она используется в инновационных проектах. В 2021 году, например, покойный корейский рок-звезда Шин Хэ-шуль был воссоздан в виде голограммы с синтезированным голосом для выступления вместе с южнокорейской бойской группой BTS. “Это была интересная коллаборация между живыми и умершими артистами, преодолевающая границу времени”, – говорит она.

Однако Ли стала осознавать более глубокие проблемы, которые необходимо решить в таких сценариях. Например, даже если семья умершего артиста дала разрешение на синтез его голоса и получила компенсацию, действительно ли этично использовать его без разрешения самого человека? “Перспективно я думаю, нам нужно не только думать о том, как защитить всех живых исполнителей, но также о тех, кто уже умер”, – говорит Ли.

В своей последней работе. Ли и ее коллеги исследовали то, как широкая общественность, а также разработчики и исследователи синтеза речи, воспринимают AI-создаваемые пение голоса. Для сбора мнений общественности они проанализировали более 3000 комментариев пользователей к онлайн-видео корейских телепередач, в которых представлены примеры использования ИИ для воссоздания голосов живых и умерших артистов, а также технологии для изменения их голосов или пения на других языках. Команда также провела интервью с шестью исследователями, занимающимися разработкой технологии синтеза голоса, о этических вопросах, которые они учитывают, и какие меры предосторожности следует принимать, например.

Ли и ее коллеги обнаружили, что у широкой общественности часто негативное отношение к ИИ-синтезированным пению голосам и задавались вопросом, стоит ли его развивать. Она считает, что отторжение общественностью данной технологии связано с дистопическим изображением ИИ в фильмах и популярной культуре. С другой стороны, разработчики в большей степени кажутся оптимистичными, частично потому, что они считают, что текущая технология не так совершенна, как кажется, и разрабатываются противодействующие меры. “Они также сосредотачиваются на идее, что это будет поддерживать людей, а не заменять их”, – говорит Ли.

Другие исследовательские группы более сосредоточены на разработке методов обнаружения deepfake голосов. Одна из стратегий – искать артефакты, генерируемые при создании ИИ-синтезированных голосов. Они в основном возникают на последнем этапе, когда специализированная нейронная сеть, называемая нейронным вокодером, используется для восстановления голоса из представления времени-частоты. Ранее это могли быть шумы, но с улучшением появление артефактов стало менее заметным. “Теперь очень сложно услышать их на слух”, – говорит Лю. “С другой стороны, когда мы представляем их двумерным представлением времени-частоты, они становятся более очевидными”.

В недавней работе Лю и его коллеги использовали глубокую модель обучения под названием RawNet2 для различения между реальными и синтетическими голосами на основе артефактов нейронных вокодеров и классификации голоса как реального или нет на основе этих результатов. Чтобы обучать и тестировать свою модель, они создали новый набор данных, используя более 13 000 реальных аудиообразцов и сгенерировали более 79 000 фальшивых голосовых образцов из этих оригиналов, используя шесть различных передовых вокодеров. Более 55 000 образцов из набора данных использовались для обучения, а более 18 000 отложили для тестирования.

Лю и его команда обнаружили, что модель хорошо справляется с классификацией голоса как реального или фальшивого. Однако требуется четкое аудио, чтобы артефакты не замывались фоновым шумом. Система показала худшие результаты, когда была протестирована на фальшивом аудио из вокодеров, которые не представлены в наборе данных. Лю также обеспокоен тем, что изобретательные злоумышленники могут удалить следы артефактов вокодера, обработав аудио, чтобы обойти технику. “Мы полностью осознаем ограничения”, – говорит он. “В определенной степени мы можем [улучшить производительность], расширив наборы данных и разработав архитектуру сетевой модели для обработки более тонких артефактов”.

Другая команда сейчас идет по-другому пути в обнаружении deepfakes, который заключается в использовании их немного более предсказуемых характеристик по сравнению с естественной речью. Хафиз Малик, профессор электротехники и компьютерной инженерии в Университете Мичигана в Дирборне, предположил, что у реальных голосов больше вариабельности в том, как быстро говорят, делают паузы или меняют тон, например, по сравнению с синтезированными голосами. Различия будут незначительные и не всегда заметны ушам человека.

Малик и его коллеги сейчас тестируют эту гипотезу, используя алгоритмы глубокого обучения. Они создали огромный набор данных для обучения и тестирования, используя аудиоиз записей, выступлений и интервью известных людей. Используя коммерчески доступные инструменты, они также синтезируют голоса этих людей, чтобы полученные двухмерные волнообразы можно было сравнить с оригиналами. “До сих пор [наша гипотеза] довольно надежна”, – говорит Малик. “Когда мы проводим анализ, [различия] очевидны”.

Малик признает, что это тип ситуации, в которой текущие стратегии могут не сработать, поскольку клонированный звуковой материал улучшается по качеству. Однако он ожидает, что в будущем будут внедрены более активные меры, такие как внедрение какого-то типа водяного знака или мониторинг происхождения синтетического контента. Он страстно борется с дезинформацией и надеется, что используемые им инструменты сыграют свою роль.

“Deepfakes вышли из-под контроля уже около 10 лет”, – говорит Малик. “Помощь людям увидеть правду для меня очень важно”.

Сандрин Сорставмон – фрилансер-научный писатель из Лондона, Великобритания.