Data Altruism Цифровое топливо для корпоративных двигателей

Data Altruism Цифровое топливо для корпоративных двигателей, трансформирующее мир

Делайте и не делайте при обработке данных в эпоху искусственного интеллекта

Изображение Gilles Lambert на Unsplash

За пределами прибыли: Дарение против получения в цифровую эпоху

Цифровая экономика была построена на прекрасном обещании равного, быстрого и бесплатного доступа к знаниям и информации. С тех пор прошло много времени. И вместо обещанного равенства, мы получили усиливающиеся дисбалансы власти из-за эффектов сети, закрепляющие пользователей за провайдерами самых популярных услуг. Тем не менее, на первый взгляд может показаться, что пользователи всё ещё ничего не платят. Но стоит взглянуть повнимательнее. Потому что они платят. Мы все платим. Мы отдаем наши данные (и множество их) просто для доступа к некоторым из обсуждаемых услуг. А провайдеры этих услуг зарабатывают астрономические прибыли на этой неравной эквации. И это касается не только текущих и хорошо установившихся социальных сетей, но и всё возрастающего количества доступных инструментов и услуг искусственного интеллекта.

В этой статье мы совершим полное погружение в эту бурную водоворот, рассмотрев и перспективу пользователей, и перспективу провайдеров. Нынешняя реальность, где большинство провайдеров услуг полагаются на практики темного поведения для получения как можно большего количества данных, является лишь одной альтернативой. К сожалению, это та, в которой все мы живем. Чтобы увидеть, какими могут быть другие, мы начнем с рассмотрения так называемой модели принятия технологии. Это поможет нам определить, действительно ли пользователи принимают правила игры или просто едут на волне искусственного интеллекта, независимо от последствий. Как только мы разберемся в этом, мы обратимся к тому, что происходит в итоге со всеми (так щедро отданными) данными. И, наконец, мы рассмотрим некоторые практические шаги и лучшие решения для тех разработчиков искусственного интеллекта, которые хотят делать лучше.

Модель принятия технологии не является новой концепцией. Скорее наоборот, эта теория является предметом публичных обсуждений с 1989 года, когда Фред Д. Дэвис представил ее в своей работе Perceived Usefulness, Perceived Ease of Use, and User Acceptance of Information Technology.[1] Как намекает название, суть идеи заключается в том, что восприятие полезности технологии пользователями и пользовательский опыт при взаимодействии с технологией являются двумя ключевыми компонентами, определяющими насколько вероятно, что пользователь согласится с чем угодно, чтобы иметь возможность ею пользоваться.

Когда дело доходит до многих технологий искусственного интеллекта, не нужно долго думать, чтобы увидеть, что это так. Само название «инструмент» уже достаточно указывает на то, что мы воспринимаем их как полезные. Если что-то, то хотя бы чтобы скрасить время. Кроме того, закон рынка по сути предписывает, что только самые удобные для пользователя и эстетически привлекательные приложения смогут достигнуть широкой аудитории.

В наши дни мы можем добавить к уравнению Дэвиса еще две вещи – это эффекты сети и “гипноз искусственного интеллекта”. Так что теперь, не только ты вертолет, если ты никогда не позволял ChatGPT исправить свои ошибки или составить вежливое письмо, но ты также не можешь участвовать во многих беседах, происходящих повсюду, ты не можешь понять половину новостей, попадающих на первые полосы, и также время, кажется, теряется, когда все остальные помогают себе с этими инструментами. Как насчет мотивации принять что угодно, представленное вам, тем более, если это красиво упаковано с привлекательным графическим интерфейсом?

Изображение Possessed Photograph на Unsplash

b. Настройки по умолчанию – насильственный альтруизм

Как уже упоминалось, кажется, что мы довольно открыты для передачи всех наших данных разработчикам многих систем искусственного интеллекта. Мы оставляем свои следы по всему интернету, не имеем обзора и контроля над этим, и, по-видимому, должны терпеть то, что коммерческие субъекты собирают эти следы и используют их для приготовления жареного курицы. Метафора может показаться немного преувеличенной, но ее последствия всё равно актуальны. Похоже, что мы просто должны терпеть то, что некоторые системы могли быть обучены нашими данными, потому что если мы не можем даже определить, где все наши данные, как можно ожидать, что провайдеры выяснят, откуда все данные исходят и уведомят всех субъектов данных соответственно.

Одна вещь, однако, которую мы сейчас по умолчанию делаем альтруистически, но где конфиденциальность и GDPR все же имеют шансы, – это данные, собранные при взаимодействии с данной системой и используемые для улучшения этой системы или разработки новых моделей тем же провайдером. Однако причина, по которой мы в настоящее время похожи на то, что бескорыстно предоставляем эти данные, совсем другая, чем описанная в предыдущем абзаце. Здесь альтруизм гораздо больше обусловлен неопределенной правовой ситуацией, в которой мы находимся, и злоупотреблением ее множеством пробелов и двусмысленностей. (Помимо того, что пользователи в большинстве случаев также ценят свои деньги больше, чем конфиденциальность, но сейчас это не важно.)[2]

Например, в отличие от OpenAI, которая активно находит каждого человека, чьи персональные данные содержатся в наборах данных, используемых для обучения их моделей, она определенно может информировать своих активных пользователей о том, что их беседы будут использоваться для улучшения текущих и обучения новых моделей. И здесь отказ от ответственности

“Как уже отмечалось выше, мы можем использовать предоставленный вами контент для улучшения наших услуг, например, для обучения моделей, которые питают ChatGPT. См. здесь инструкции, как вы можете отказаться от использования вашего контента для обучения наших моделей”.

не устраивает по нескольким причинам.[3] Во-первых, пользователи должны иметь возможность активно решать, хотят ли они, чтобы их данные использовались для улучшения услуг провайдера, а не только иметь возможность отказаться от такой обработки позже. Во-вторых, использование слов вроде “может” может создать очень ложное впечатление у обычного пользователя. Это может подразумевать, что это делается лишь время от времени и в особых обстоятельствах, тогда как на самом деле это распространенная практика и золотое правило торговли. В-третьих, “модели, которые питают ChatGPT” является неоднозначным и неясным даже для очень хорошо информированного человека о их практике. Ни они не предоставили достаточно информации о используемых ими моделях и о том, как они обучены, ни они не пояснили, как именно эти модели “питают ChatGPT”.

Наконец, при прочтении их политики у вас остается уверенность в том, что они используют только контент (с прописной буквы) для обучения этих неизвестных моделей. То есть они используют только

“Личную информацию, которая включена во входные данные, загрузки файлов или отзывы, которые Вы предоставляете нашим Услугам”.

Однако это явно не может быть правильным, если мы учтем скандал от марта 2023 года, в котором некоторые данные платежей пользователей были раскрыты другим пользователям.[4] И если эти данные о платежах попали в модели, мы можем с уверенностью предположить, что сопровождающие имена, адреса электронной почты и другая информация о аккаунтах также не исключены.

Конечно, в этом описанном контексте термин “альтруизм данных” может использоваться только с существенной долей сарказма и иронии. Однако даже с провайдерами, которые не являются явными лжецами относительно того, какие данные они используют, и которые намеренно не уклоняются от целей, для которых они их используют, мы снова столкнемся с проблемами. Например, сложность операций обработки, которая либо приводит к упрощению политик конфиденциальности, подобных той, что представлена OpenAI, либо к непонятным политикам, которые никто не хочет даже рассмотреть, не говоря уже о прочтении. И оба варианта приводят к одному результату – пользователи соглашаются на все, что необходимо для доступа к сервису.

Теперь, очень популярным ответом на такие наблюдения случайно оказывается то, что большая часть данных, которую мы отдаем, нам не так важна, поэтому почему она должна быть важна для кого-то еще? Кроме того, кто мы такие, чтобы быть настолько интересными для крупных конгломератов, управляющих миром? Однако, когда эти данные используются для создания ничего иного, как бизнес-модели, основанной именно на тех маленьких, неважных данных, собранных от миллионов по всему миру, вопрос приобретает совершенно другую перспективу.

c. Украсть данные как бизнес-модель?

Для изучения бизнес-модели, построенной на миллионах незначительных согласий, которые бросаются каждый день, нам нужно рассмотреть, насколько альтруистичны пользователи, отдающие свои данные. Конечно, когда пользователи получают доступ к сервису и отдают свои данные в процессе, они также получают этот сервис в обмен на данные. Но это не единственное, что они получают. Они также получают рекламу, или может быть второсортный сервис, так как первый сорт зарезервирован для пользователей-подписчиков. Не говоря уже о том, что эти пользователи-подписчики все еще отдают свой контент (с заглавной буквы К), а также (по крайней мере, в случае OpenAI) свою учетную запись.

Таким образом, хотя пользователи соглашаются на все, что могут сделать с их данными, чтобы воспользоваться инструментом или сервисом, данные, которые они отдают, многократно монетизируются для показа им персонализированной рекламы и разработки новых моделей, которые снова могут использовать модель бесплатного доступа. Оставив в стороне более философские вопросы, такие как то, почему числа на банковском счете столь ценны по сравнению с нашими выборами и предпочтениями, кажется довольно нелогичным, что пользователи отдают столько, чтобы получить так мало. Особенно учитывая, что мы обсуждаем данные, которые необходимы поставщикам услуг, по крайней мере, если они хотят оставаться конкурентоспособными.

Однако, это необязательно так. Нам не нужно ждать новых и конкретных правил ИИ, чтобы сказать нам, что делать и как вести себя. По крайней мере, когда речь идет о персональных данных, GDPR довольно ясно устанавливает, как они могут быть использованы и для каких целей, независимо от контекста.

Что говорит закон об этом?

В отличие от вопросов авторских прав, где регулирование может потребовать переосмысления в свете новых технологий, то же самое нельзя сказать о защите данных. Защита данных в основном развилась в цифровую эпоху и при попытках регулирования практик провайдеров онлайн-услуг. Следовательно, применение существующих правил и соблюдение существующих стандартов неизбежно. Вопрос только в том, как это можно сделать.

Здесь следует учесть несколько вещей:

1. Согласие — это обязательство, а не выбор.

Не информировать пользователей (прежде, чем они начнут использование инструмента) о том, что их персональные данные и входные данные моделей будут использоваться для разработки новых и улучшения существующих моделей, является серьезным сигналом тревоги. Практически таким красным, как они могут быть. Всплывающие окна с запросом согласия, аналогичные тем, которые используются для сбора согласий на использование файлов cookie, являются обязательными и легко программируемыми.

С другой стороны, идея «плати или отслеживай» (или в контексте моделей ИИ «плати или собирай»), что выбор остается за пользователями, решать, хотят ли они позволить ИИ-разработчикам использовать их данные, находится в серьезном споре и практически невозможен в соответствии с законом. Прежде всего, потому что пользователи по-прежнему должны иметь свободный выбор принять или отклонить отслеживание, то есть цена должна быть пропорционально низкой (то есть услуга должна быть довольно дешевой), чтобы даже оправдать утверждение о свободном выборе. Не говоря уже о том, вы должны придерживаться этого обещания и не собирать данные пользователей-подписчиков. Поскольку Meta недавно перешла к такой модели, и органы по защите данных уже получили первые жалобы из-за этого [5], будет интересно увидеть, что решит Суд Европейского союза по этому вопросу. Однако, на данный момент, наиболее безопасным путем является полагаться на законное согласие.

2. Политики конфиденциальности требуют обновления

Информация, предоставляемая субъектам данных, должна быть обновлена для включения обработки данных на протяжении жизненного цикла системы искусственного интеллекта. Начиная от разработки, тестирования и до внедрения. Для этого все сложные операции обработки должны быть изложены простым понятным языком, и это далеко не простая задача, но нет другого выхода. И хотя всплывающие окна с запросом согласия не являются подходящим местом для этого, это могут быть политики конфиденциальности. И пока эта политика конфиденциальности прямо связана с всплывающими окнами с запросом согласия, все будет нормально.

3. Будьте креативными

Перевод сложных операций обработки является трудной задачей сам по себе, но это абсолютно необходимая работа для достижения стандартов GDPR в отношении прозрачности. Будь то графика, изображения, викторины или видео, вам нужно найти способ объяснить обычным пользователям, что происходит с их данными. В противном случае их согласие нельзя считать осведомленным и законным. Итак, настало время надеть свою зеленую шляпу мышления, завести рукава и приступить к разработке.

Изображение от Амели Муришон на Unsplash

[1] Фред Д. Дэвис, Воспринимаемая полезность, Воспринимаемая легкость использования и Пользовательская акцептанс информационных технологий, MIS Quarterly, Том 13, №3 (1989), стр. 319-340 https://www.jstor.org/stable/249008?typeAccessWorkflow=login

[2] Кристоф Каругати, Проблема “плати или согласуй” для регуляторов платформ, 06 ноября 2023 года, https://www.bruegel.org/analysis/pay-or-consent-challenge-platform-regulators.

[3] OpenAI, Политика конфиденциальности, https://openai.com/policies/privacy-policy

[4] OpenAI, Сбой в работе ChatGPT 20 марта: что произошло, https://openai.com/blog/march-20-chatgpt-outage

[5] nyob, noyb подает жалобу на нарушение GDPR против Meta в связи с “Плати или разрешай”, https://noyb.eu/en/noyb-files-gdpr-complaint-against-meta-over-pay-or-okay

[6] untools, Шесть шляп мышления, https://untools.co/six-thinking-hats