Обнаружение генеративного контента искусственного интеллекта

Распознавание генеративного контента искусственным интеллектом

О дипфейках, подлинности и президентском указе об искусственном интеллекте

Сможете ли вы обнаружить подделку? Фото Либерти Анн с Unsplash

Одна из множества интересных этических проблем, связанных с прогрессом в области генеративного искусственного интеллекта, это обнаружение продукта моделей. Это также практическая проблема для нас, потребителей СМИ. Это, что я читаю или рассматриваю, результат продуманной работы человека, или просто слова или изображения, вероятно, сгенерированные для привлечения моего внимания? Имеет ли это значение? И если да, то что мы делаем в таком случае?

Значение неразличимого контента

Когда мы говорим о контенте, который сложно или невозможно обнаружить как сгенерированный искусственным интеллектом, мы вступаем в род тестирования Тьюринга. Предположим, я предоставлю вам параграф текста или изображение. Если я спрошу вас: “это было создано человеком или моделью машинного обучения?”, и вы не можете точно ответить, то мы приходим к тому моменту, когда нам нужно задуматься об этих вопросах.

Мы очень близки к этому во многих областях, особенно с использованием GPT-4, но даже с менее сложными моделями, в зависимости от того, какой вид данных мы используем и объема контекста. Если у нас есть документ от модели GPT, вероятно, будет легче обнаружить, что он не был создан человеком, потому что каждое новое слово – это возможность для модели сделать что-то, чего обычный человек бы не делал. То же самое относится к видео или изображению высокого разрешения – чем больше возможностей для пикселизации или странной неточности, тем больше возможностей для нас обнаружить подделку.

Мне также кажется ясным, что по мере того, как мы становимся все более знакомы с контентом, созданным моделями, мы становимся лучше в выявлении признаков участия искусственного интеллекта в этом контенте. Как я уже рассказывал несколько недель назад, объясняя, как работают генеративно-состязательные сети, мы находимся в неком отношении ГАС с генеративным искусственным интеллектом. Модели работают над созданием наиболее похожего на человека контента, и мы улучшаем нашу способность обнаружить, что это не человек. Это как гонка, где каждая сторона стремится перехитрить другую.

По мере того, как мы становимся все более знакомы с контентом, созданным моделями, мы становимся лучше в выявлении признаков участия искусственного интеллекта в этом контенте.

Подходы к обнаружению

Тем не менее, существует предел, насколько хорошо мы можем обнаружить такие подделки, и модели выиграют у обычных человеческих глаз и ушей (если они этого уже не сделали). У нас просто нет таких органов чувств и мощности распознавания образов, которые есть у больших моделей. К счастью, мы можем использовать модели как инструменты на нашей стороне, обучая их сканировать контент и определять, был ли он создан человеком, так что это одно из средств, доступных нам.

В конце концов, может наступить момент, когда для некоторого контента, особенно в небольших объемах, не будет надежных признаков происхождения от машинного обучения. Философски говоря, с бесконечным развитием моделей, существует вероятность того, что не будет никакой реальной разницы между двумя видами контента. Кроме того, большинство из нас не будут использовать модель для проверки всего контента, который мы потребляем, чтобы убедиться в его происхождении от человека и подлинности. В ответ на это некоторые организации, такие как Content Authenticity Initiative, предпринимают усилия по широкому использованию метаданных проверки подлинности контента, что может помочь. Однако такие усилия требуют доброй воли и работы со стороны людей, предоставляющих доступ к моделям.

В конце концов, может наступить момент, когда для некоторого контента, особенно в небольших объемах, не будет надежных признаков происхождения от машинного обучения.

Вы можете спросить, что на счет людей, которые намеренно используют дипфейки или дезинформацию, используя контент, сгенерированный искусственным интеллектом? Ведь они не собираются открыть все подробности о происхождении своего контента, верно? Это справедливый вопрос. Однако, по крайней мере на данный момент, модели, которые настолько сложны, что масштабно обманывают людей, находятся в основном под контролем крупных компаний (OpenAI и т. д.). Это не будет продолжаться, но в данный момент это хотя бы приведет к значительному снижению проблемы происхождения контента, если люди, предоставляющие наиболее сложные модели для публики, предпримут некоторые шаги в этом направлении.

Это не очень оптимистическая история до сих пор. Генеративное искусственное интеллекта стремительно движется к месту, где эти мощные модели достаточно малы для запуска недобросовестными деятелями, и где эти модели легко создают контент, который буквально неотличим от органического контента, даже для других моделей.

Причины обнаружения

Я немного опередил события, не так ли? Почему так важно для всех выяснить, что контент вообще происходит от модели? Если вы не можете сказать, имеет ли это значение?

Одна из главных причин в том, что поставщик контента может иметь злонамеренные намерения, такие как дезинформация или дипфейки. Создание изображений, аудио и видео – самые распространенные сценарии здесь – делая так, чтобы казалось, что кто-то сказал или сделал что-то, чего он на самом деле не делал. Если вы следите за Постановлением президента США об искусственном интеллекте, вы, возможно, слышали, что президент Байден действительно заинтересовался этим, потому что он услышал о потенциале использования своей внешности и голоса незаконно для дезинформации. Это очень серьезная проблема, потому что в настоящее время мы обычно доверяем тому, что видим своими глазами на изображениях или видео, и это может иметь существенное влияние на жизни и безопасность людей.

В настоящее время мы обычно доверяем тому, что видим своими глазами на изображениях или видео, и это может иметь существенное влияние на жизни и безопасность людей.

Связанной проблемой является использование моделей для имитации работы конкретных людей не обязательно с злонамеренными целями, а только потому, что эта работа приятна, популярна и может быть прибыльной. Это прямо-таки незаконно с этической точки зрения, но в большинстве случаев, вероятно, не предназначается активно наносить вред как аудитории, так и человеку, который подражается. (Конечно, это причиняет вред людям – лишение возможности заработка и средств к существованию художников и писателей, за что производители контента должны быть ответственными.) Это также может привести к ущербу репутации, когда дипфейки используются для лжи об действиях людей. (Просто спросите у Джо Рогана, который борется с рекламой, использующей его внешность в дипфейках.)

Третьим аспектом, о котором я задумался после того, как Кейси Ньютон обсудил это в своем 5 октября в выпуске Platformer, является риск того, что публичные лица могут инвертировать проблему и утверждать, что реальные, подлинные доказательства их плохого поведения искусственно созданы. Что мы делаем, когда мы не можем надежно раскрыть проступки, ибо ответом «это дипфейк» является невозможность доказать обратное? Мы еще не совсем там, но я вижу, что в ближайшем будущем это может стать реальной проблемой.

Что мы делаем, когда мы не можем надежно раскрыть проступки, ибо ответом «это дипфейк» является невозможность доказать обратное?

Менее срочно, я также считаю, что есть что-то в том, чтобы хотеть, чтобы мое потребление медиа представляло собой взаимодействие с другим человеком, даже если это в основном одностороннее движение идей. Я считаю чтение или потребление искусства взаимодействием с мыслями другого человека, а взаимодействие с текстами, созданными моделью, не вызывает того же ощущения. Лично я бы хотел знать, является ли контент, который я потребляю, произведением человека.

Постановление

Имея все эти реальные риски, мы сталкиваемся с серьезными вызовами. Кажется, что существует компромисс между определением происхождения (то есть безопасностью общественности и всеми описанными мной проблемами) и совершенством модели, и, как индустрия, наука о данных продвигается в сторону совершенства модели. Кто сбалансирует эту ситуацию?

Постановление президента представляет собой значительный прогресс по этой теме. (Оно также говорит о многих других важных вопросах, о которых я могу рассуждать в другой раз.) Я провел последнюю неделю и полторы, размышляя об этом постановлении и читая точки зрения других людей из индустрии. В то время как некоторые утверждают, что оно будет сдерживать прогресс (и приведет к укреплению крупных игроков в генеративном искусственном интеллекте за счет малых конкурентов), я склоняюсь к оптимистической стороне в отношении постановления.

Создание конкурентоспособных моделей генеративного искусственного интеллекта является крайне дорогостоящим и ресурсоемким процессом, что естественным образом ограничивает количество участников в данной области. Защита гипотетических новых игроков за счет широкого социального благополучия, на мой взгляд, не имеет смысла. Я также не считаю, что президентский указ является непосильным бременем для организаций, которые изначально имеют необходимые ресурсы для участия в этой области.

Сам по себе указ также не является чрезмерно предписывающим. Он предлагает создание нескольких моментов, но оставляет широкую полномочность по вопросу о том, как это должно происходить, и, надеюсь, в эти процессы будут вовлечены хорошо информированные люди. 🤞 (Ученые-данные в этой области должны обязательно следить за тем, что происходит, и высказываться, если что-то идет не так.) В частности, он просит Департамент Торговли создать “стандарты и рекомендации по обнаружению контента, созданного с помощью искусственного интеллекта, и аутентификации официального контента”. Также существуют некоторые важные аспекты безопасности и защиты информации, касающиеся моделей.

Мне не кажется, что у нашего правительства есть огромное доверие в том, что они отлично справятся с регулированием искусственного интеллекта, не вредя инновациям. Нет, не совсем. Однако я уверен, что индустрия, оставленная сама по себе, не уделяет достаточное внимание вопросам происхождения и обнаружения контента, так как они не продемонстрировали, что это приоритетное направление их деятельности.

Я уверен, что индустрия, оставленная сама по себе, не уделяет достаточное внимание вопросам происхождения и обнаружения контента, так как они не продемонстрировали, что это приоритетное направление их деятельности.

В то же время, я не уверен, что обнаружение контента, созданного генеративным искусственным интеллектом, физически возможно во всех или даже большинстве контекстов, особенно по мере улучшения технологий. В указе не сказано ни слова о предотвращении разработки моделей, если их контент превышает пределы обнаружимости, но такой риск беспокоит меня. Это действительно может угнетать инновации, и мы должны очень внимательно продумать, каковы компромиссы или могут быть. Однако, возможно, эта лошадь уже ушла из загона – в мире существует так много открытых моделей генеративного искусственного интеллекта, и они продолжают совершенствоваться в том, в чем они делают лучше.

Вывод

Эта тема сложна, и правильные действия не всегда очевидны. Чем более сложным и сложным является вывод модели, тем лучше наши шансы обнаружить, что он не создан человеком, но мы находимся в технологической гонке, которая делает это обнаружение все труднее и труднее. Политическое вовлечение в эту тему может дать нам некоторые границы, но мы еще не можем знать, насколько это действительно поможет или окажется бесполезным.

В этот раз у меня нет способа завершить обсуждение готовым решением. Потенциальные и действительные риски неразличимого генеративного вывода искусственного интеллекта серьезны и должны рассматриваться соответствующим образом. Однако мы находимся в научно-математическом месте, где мы не можем создать быстрое или простое решение, и мы должны уделять внимание преимуществам, которые могут принести более продвинутые генеративные модели искусственного интеллекта.

Независимо от этого, ученым-данным следует уделить время чтению президентского указа или хотя бы краткой информации, и быть ясными о том, что заявление говорит или не говорит. Как постоянные читатели уже знают, я считаю, что мы должны нести ответственность за распространение точной и доступной информации о таких вопросах среди наших близких, и это хорошая возможность, так как эта тема часто обсуждается в новостях. Обязательно внесите позитивный вклад в понимание науки о данных темы рядом с вами.

Посмотрите больше моей работы на www.stephaniekirmer.com.

Ссылки

Кейси Ньютон – Выпуск от 5 октября журнала Platformer

Информационный бюллетень о президентском указе об искусственном интеллекте

Полный документ о президентском указе об искусственном интеллекте

Доклад о мошенничестве с deepfake в рекламе с участием Джо Рогана

Инициатива подлинности контента

Создание стандарта для происхождения цифрового контента.

contentauthenticity.org