Веб-сканер OpenAI и ошибка FTC

OpenAI веб-сканер и ошибка FTC

OpenAI запускает краулер по умолчанию с возможностью выбора для сканирования Интернета, в то время как ФТК ведет расследование по непонятному обману потребителей

Фото Giammarco Boscaro на Unsplash

С ростом применения искусственного интеллекта все важнее становится для специалистов по данным думать о источниках данных. В то время как первая волна высокопроизводительных LLM-моделей была обучена с использованием распространенной, но спорной тактики сканирования данных, эта сомнительная практика недавно оказалась в центре внимания, вызывая судебные иски и вопросы о владении данными. В этой статье предоставляется глубокое понимание юридических концепций, связанных с этим, и того, как регуляторы решают эту проблему (спойлер: не очень эффективно).

Примечание от редакции Towards Data Science: Мы разрешаем независимым авторам публиковать статьи в соответствии с нашими правилами и руководствами, но не поддерживаем вклад каждого автора. Вы не должны полагаться на работы автора без профессиональной консультации. См. наши условия использования для получения подробной информации.

На прошлой неделе Open AI (создатель ChatGPT) официально объявила о запуске своего веб-краулера – это программное обеспечение, которое сканирует контент со всех веб-сайтов в Интернете, а затем используется для обучения моделей искусственного интеллекта. Существование краулера не вызывает удивления, и сегодня существуют несколько законных веб-краулеров, включая краулер Google, который индексирует весь Интернет. Однако это первый раз, когда OpenAI явно объявила о его существовании и предоставила механизм для веб-сайтов, чтобы они могли отказаться от сканирования.

Обратите внимание, что краулер по умолчанию включен, т.е. необходимо явно изменить код на вашем веб-сайте, чтобы попросить краулер не сканировать ваши данные. Значения по умолчанию для включения/отключения имеют стойкое поведение и часто определяют большинство действий, поскольку большинство людей не затрачивает усилий на изменение значений по умолчанию. Это та же причина, по которой изменения конфиденциальности в iOS14 от Apple оказали значительное влияние на цифровую рекламную индустрию.

Краулер веб-сайта OpenAI (источник: OpenAI)

Зачем вообще предоставлять возможность отказа? Скорее всего, это предупредительный шаг со стороны OpenAI в ответ на недавние судебные иски против компании, утверждающие нарушение авторских прав владельцами контента (глубокая статья о сканировании данных, если вы хотите узнать больше). Конкурент ChatGPT – Google Bard – столкнулся с подобной проблемой, но Google еще не объявил о своем аналогичном решении – они выразили просьбу о комментарии о том, как обновить robots.txt для решения этой проблемы (написано с помощью изящного PR-мастерства).

В этой статье мы рассмотрим:

  • Последствия краулера OpenAI для владельцев контента
  • Текущее расследование ФТК в отношении OpenAI
  • Правовую среду, в которой мы работаем
  • Почему подход ФТК к преследованию OpenAI является (еще одним) неправильным шагом

Последствия краулера OpenAI для владельцев контента

Хотя объявление предоставляет возможность рекламодателям блокировать краулер OpenAI и запрещать сканирование их данных, есть несколько проблем:

  1. По умолчанию он включен, что означает, что OpenAI может продолжать сканирование, пока веб-сайты явно не запретят это
  2. Пока не существует ясного юридического решения относительно прав владельцев контента, когда их данные сканируются для обучения моделей без согласия (что фактически является случаем для тех, кто принужден к выбору по умолчанию)

В настоящее время существуют две правовые конструкции, определяющие, допустимо ли или нет для языковых моделей использовать все эти данные без согласия – это Авторское право и Добросовестное использование.

Авторское право (согласно разделу 102 Закона об авторском праве США) обеспечивает защиту определенных типов контента, но также имеет исключения:

Авторское право существует, в соответствии с настоящим Законом, в отношении оригинальных произведений авторства, закрепленных в любом материальном виде выражения, существующем на данный момент или разрабатываемом впоследствии, из которого они могут быть восприняты, воспроизведены или иным образом переданы, как непосредственно, так и с помощью машины или устройства. Произведения авторства включают следующие категории: (1) литературные произведения; (2) музыкальные произведения, включая сопроводительные тексты; (3) драматические произведения, включая сопроводительную музыку; (4) пантомимы и хореографические произведения; (5) изобразительные, графические и скульптурные произведения; (6) кинематографические и другие аудиовизуальные произведения; (7) звуковые записи; и (8) архитектурные произведения.

(б) В любом случае авторское право на оригинальное произведение авторства не распространяется на идеи, процедуры, процессы, системы, методы, концепции, принципы или открытия, независимо от формы, в которой они описаны, объяснены, иллюстрированы или воплощены в таком произведении.

Например, авторское право защищает большую часть оригинальных работ (например, если вы написали оригинальную статью в блоге или книгу на определенную тему), но не защищает широкие идеи (например, вы не можете утверждать, что были первым, кто написал о том, как искусственный интеллект влияет на права на данные, и поэтому эта идея принадлежит вам).

Еще одно исключение из защиты авторского права – доктрина справедливого использования (раздел 107 Закона об авторском праве США):

Справедливое использование защищенного авторским правом произведения, включая его воспроизведение в экземплярах или звукозаписях, а также любое иное использование, указанное в этом разделе, в целях, таких как критика, комментарий, новостное сообщение, обучение (включая множественное копирование для использования в классе), научные исследования, не является нарушением авторского права.

При определении, является ли использование произведения справедливым в отдельном случае, следует учитывать следующие факторы: (1) цель и характер использования, включая коммерческий характер использования или использование в некоммерческих образовательных целях; (2) характер защищенного авторским правом произведения; (3) объем и существенность использованной части в сравнении с использованным произведением в целом; и (4) влияние использования на возможный рынок или стоимость защищенного авторским правом произведения.

Например, если вы взяли контент из научной статьи и написали ей критику, это допустимо и не является нарушением авторского права владельца контента. То же самое относится и к ссылке на другую статью с этой страницы с добавлением цитируемого текста из этой статьи.

Оба этих концепта были созданы для защиты прав владельцев контента, а также для обеспечения свободного потока информации, особенно в контексте образования, исследований и критики.

Я не являюсь юристом, но, исходя из моих исследований и понимания указанного выше языка, ситуация с извлечением данных для обучения моделей искусственного интеллекта является неоднозначной:

  • Компании по искусственному интеллекту обычно извлекают полный текст с веб-сайта владельца контента (это защищено авторским правом), обучают модели научиться “идее” / “концепции” / “принципу” (это не защищено авторским правом), а затем модели в конечном итоге выводят различный текст. В этом случае владелец контента получает защиту авторского права или нет?
  • Поскольку обученные языковые модели в конечном итоге используются для коммерческих целей (например, ChatGPT plus – платный продукт), является ли это нарушением авторского права владельца контента (поскольку исключение справедливого использования больше не применяется)?

Пока по этому вопросу нет судебных решений, поэтому сложно предсказать исход. Я, не будучи юристом, думаю, что второй вопрос, вероятно, проще: OpenAI извлекла данные и использовала их для создания коммерческого продукта, и, следовательно, у них нет исключения на основании справедливого использования. Я предполагаю, что первый вопрос (обучалась ли модель на “идее” или только на оригинальном тексте) остается вопросом для каждого. Обратите внимание, что оба эти пункта должны быть в пользу владельцев контента, чтобы они выиграли, то есть владельцы контента выигрывают только если оба вышеупомянутых исключения (“исключение идеи” или “исключение справедливого использования”) не применяются к OpenAI.

Я упоминаю эту тонкость потому, что в спектре рисков искусственного интеллекта (не исчерпывающем) – от прав владельцев контента до усиления мошенничества, автоматизации рабочих мест, ИИ общего назначения / уничтожения человечества – наиболее актуальной проблемой в ближайшей перспективе являются права владельцев контента, что подтверждается бурей судебных исков и влиянием на платформы контента (например, история с StackOverflow).

В то время как регуляторы, такие как Федеральная торговая комиссия (FTC), могут размышлять о проблемах долгосрочной перспективы и придумывать гипотетические / творческие способы решения этих рисков, их реальный короткосрочный потенциал заключается в способности справиться с рисками, которые повлияют на нас в период 5-10 лет. Как, например, нарушение авторских прав. Как это связано с тем, что делает FTC в этом вопросе.

Текущее расследование FTC в отношении OpenAI

В середине июля FTC объявила, что проводит расследование в отношении OpenAI. Что делает это интересным (и раздражающим), так это причина, по которой FTC исследует их. Производитель ChatGPT расследуется для оценки того, нарушила ли компания какие-либо законы о защите прав потребителей, подвергая личную репутацию и данные риску. Не имеет смысла? Вы не одиноки. Давайте рассмотрим некоторую дополнительную информацию о том, как это произошло.

Самая громкая позиция FTC по регулированию искусственного интеллекта была высказана в апреле: “не существует исключения для искусственного интеллекта из законов, и FTC будет решительно преследовать нарушения закона в целях борьбы с нечестными или обманными практиками или нечестными методами конкуренции”. Затем возникли несколько проблем, связанных с клеветой: радиоведущий Марк Уолтерс подал в суд на OpenAI после того, как ChatGPT обвинил его в мошенничестве некоммерческой организации, профессор права был ложно обвинен ChatGPT в сексуальных домогательствах.

Оба эти сценария неприятны для затронутых людей, и я симпатизирую им в этом. Однако известный факт, что языковые модели (например, GPT) и продукты, созданные на их основе (например, ChatGPT), “галлюцинируют” и часто ошибаются. Первая половина предпосылки ФТК для расследования заключается в том, что — ChatGPT галлюцинирует и, следовательно, наносит ущерб репутации.

На накаленном заседании Конгресса один из представителей (совершенно справедливо) спрашивает ФТК, почему они занимаются клеветой и оскорблением, которые обычно регулируются штатными законами. Председатель ФТК Лина Хан дает запутанный аргумент:

Хан ответила, что они не фокусируются на преследовании клеветы и оскорбления, но злоупотребление личной информацией людей при обучении ИИ может быть формой мошенничества или обмана в соответствии с Законом о ФТК. “Мы сосредоточены на том, есть ли значительный вред для людей? Вред может выглядеть по-разному”, – сказала Хан.

Чтобы закончить полный аргумент — ФТК говорит, что галлюцинация ChatGPT приводит к неправильной информации (включая клевету), что затем может быть формой обмана потребителя. Кроме того, могут быть использованы или утечь чувствительные личные данные пользователей (на основе одной ошибки, которую OpenAI быстро исправила).

В рамках расследования ФТК попросила у OpenAI длинный список вещей — от подробностей о том, как обучается их модель, до источников данных, которые они используют, до того, как они представляют свой продукт клиентам, до ситуаций, когда выпуски моделей были приостановлены из-за выявленных рисков.

Вопрос в следующем — является ли наилучшим подходом для ФТК регулирование, вероятно, одной из крупнейших ИИ-компаний, особенно с учетом существующей правовой практики?

Сегодняшняя правовая практика, в рамках которой мы действуем

Чтобы критически взглянуть на стратегию ФТК в отношении OpenAI, полезно понять сегодняшнюю правовую практику, в рамках которой мы действуем. Мы не будем углубляться в подробности, но давайте кратко рассмотрим историю антимонопольного законодательства:

  • В 1900-е годы появились массовые конгломераты (“трасты”), и баланс силы между государством и частными компаниями сместился в пользу этих компаний.
  • В ответ на это был принят Шермановский закон 1890 года, чтобы добавить проверку частной власти и сохранить конкуренцию; этот закон использовался для судебного разбирательства и ликвидации “трастов”, занимавшихся антиконкурентными практиками (ценообразование с целью устранения конкурентов, соглашения о картели, монополия на дистрибуцию).
  • В 1960-е годы судьи столкнулись с острой критикой за то, что они рассматривали дела не на основе буквы закона, а на его дух; например, интерпретация Шермановского закона для определения того, является ли группа компаний “неразумным ограничением торговли”, включала субъективность, и судей обвиняли в судебном активизме.
  • Для введения объективности Чикагская школа стала пионером стандарта благосостояния потребителя — “суды должны руководствоваться исключительно благосостоянием потребителя” (например, монополия, повышающая цены открытым образом, неправильна, но для других действий бремя доказательства лежит на регуляторах, чтобы доказать вред потребителям).
  • Это остается стандартом и по сей день и является одной из причин, по которым ФТК и Департамент юстиции имеют сложную задачу в отношении крупных технологических компаний — например, ФТК не может доказать, что Google повышает цены, поскольку большинство их продуктов бесплатны, даже если Google занимается другими антиконкурентными практиками.

Вывод из всего этого состоит в следующем — мы продолжаем действовать сегодня в среде, где дела рассматриваются в основном с точки зрения “буквы закона”, а не “духа закона”. Это, вместе с составом Верховного суда США сегодня, привело к довольно консервативному толкованию закона.

Это означает для ФТК принять реальность этой ситуации и найти способ выиграть дела. Операционная модель ФТК и Департамента юстиции (и это правильно) заключается в том, чтобы преследовать несколько крупных дел и жестко применять право, чтобы компании долго думали, прежде чем нарушать закон. Для этого ФТК нужно победить в крупных вопросах и разработать стратегию победы в рамках текущей правовой практики.

Почему подход ФТК к преследованию OpenAI является (еще одной) ошибочной стратегией

ФТК понесла серию поражений в судах против крупных технологических компаний, и я бы сказал, что все эти поражения можно объяснить неудачной стратегией “мы ненавидим все, что связано с крупными технологическими компаниями”, стратегией применения тяжелого молотка вместо скальпеля при борьбе с этими компаниями.

Например, ФТК применила грубую силу, чтобы остановить сделку между Microsoft и Activision стоимостью 69 миллиардов долларов и потерпела поражение (довольно крупное, я бы сказал). ФТК утверждала, что поглощение Activision Microsoft уничтожит конкуренцию на рынке видеоигр. Судья написал довольно резкое решение, отвергая все аргументы ФТК, вот один из комментариев судьи:

Внутренние документы, электронные письма или чаты, противоречащие заявленным намерениям Microsoft не делать Call of Duty эксклюзивным для консолей Xbox, отсутствуют. Несмотря на завершение обширного исследования в административном процессе ФТК, включая предоставление почти 1 миллиона документов и 30 депозиций, ФТК не обнаружила ни одного документа, противоречащего публично заявленному обязательству Microsoft сделать Call of Duty доступным на PlayStation (и Nintendo Switch).

Еще один случай грубой силы был попыткой ФТК заблокировать приобретение компании Meta VR-компанией Within, и они проиграли. Почему они этого добивались? Они хотели проверить обстановку, чтобы узнать, есть ли желание блокировать сделки до того, как конкретный рынок станет большим, и в свете нынешней правовой ситуации это было предсказуемо отклонено.

Проблема с расследованием ФТК OpenAI похожа:

  1. Они преследуют (на мой взгляд) довольно тривиальную проблему и известное ограничение языковых моделей – галлюцинации; вместо этого они должны сосредоточиться на реальных проблемах искусственного интеллекта, которые имеют значение в перспективе 5-10 лет, например, авторские права
  2. Несмотря на то, что в нынешней правовой ситуации множество “творческих” юридических подходов были отклонены, они пытаются использовать еще один творческий аргумент: галлюцинация → клевета → обман потребителя

Благородная интерпретация их действий заключается в том, что они хотят установить прецедент для своей позиции “ИИ не освобождает от существующих законов” и что эта погоня за диким гусям дает им большое количество самоуведомляемых данных от OpenAI (ФТК выдвигает 20 страниц требований).

Однако, учитывая их историю постоянного преследования подхода грубой силы / все, что связано с крупными технологическими компаниями, и использования творческих аргументов, которые многократно отклонялись в судах, я считаю, что ФТК не заслуживает сомнений в этом случае.

Заключение

Я абсолютно считаю, что OpenAI должна быть регулируема. Не потому что их языковые модели галлюцинируют (конечно, они это делают), а потому что они явно используют контент создателей без разрешения. Не потому что это изменит прошлое, а потому что это поможет создателям обеспечить здоровое будущее, где их права на владение контентом защищены (остается вопрос, будут ли суды считать текущее положение вещей нарушением авторских прав или нет).

Это не произойдет, если ФТК продолжит повторять свои ошибки, применяя метод “молотка, а не скальпеля”. Существует ясный прецедент для успешных воздействий на крупные технологические компании с использованием скрупулезного подхода, наиболее известным из которых является Конкурентная и рыночная служба Великобритании. Два крупных дела, которые они выиграли против Google, были сосредоточены на конкретных антиконкурентных механизмах: остановка Google от предоставления предпочтительного обслуживания своим собственным продуктам в AdTech-стеке и разрешение использования других поставщиков платежей для платежей в приложении.

Если ФТК продолжит свою текущую политику, их серия поражений будет ободрять технологические компании делать все, что им хочется, потому что они знают, что могут победить в суде. Пришло время для ФТК задуматься над своими неудачами, извлечь уроки из успехов других регулирующих органов и изменить курс.

🚀 Если вам понравилась эта статья, подумайте о подписке на мой еженедельный бюллетень. Каждую неделю я публикую глубокий анализ на актуальную технологическую тему / стратегию продукта в формате 10-минутного чтения. С наилучшими пожеланиями, Viggy.

Unpacked | Viggy Balagopalakrishnan | Substack

Глубокий анализ текущих технологических и бизнес-тем, который поможет вам оставаться впереди. Еженедельно в ваш почтовый ящик…

thisisunpacked.substack.com