Генеративное искусственное интеллект Первый набросок, а не финал

Генеративный искусственный интеллект первый этап, а не финал

Авторы: Нума Дхамани и Мэгги Энглер

 

Можно сказать, что искусственный интеллект переживает свой момент. С тех пор, как конверсационный агент ChatGPT от OpenAI неожиданно стал вирусным в конце прошлого года, технологическая отрасль оживлена обсуждениями крупных языковых моделей (LLM), технологии, лежащей в основе ChatGPT. Компании Google, Meta и Microsoft, а также хорошо финансируемые стартапы, такие как Anthropic и Cohere, выпустили свои собственные LLM-продукты. Компании из разных отраслей стремятся интегрировать LLM в свои услуги: только OpenAI имеет клиентов, включающих финансовые стартапы, такие как Stripe, для силовых чат-ботов обслуживания клиентов, проекты в области редакции и образования, такие как Duolingo и Khan Academy, создающие образовательный материал, компании по созданию видеоигр, такие как Inworld, использующие LLM для предоставления диалога для NPC (неиграбельных персонажей) налету. Благодаря этим партнерствам и широкому распространению использования LLM, OpenAI заявляют, что они могут достичь ежегодного дохода более миллиарда долларов. Легко впечатлиться динамикой этих моделей: технический отчет о GPT-4, последней из LLM OpenAI, показывает, что модель демонстрирует впечатляющие результаты в широком спектре учебных и профессиональных примеров, включая бар-экзамены; SAT, LSAT и GRE; и экзамены AP по предметам, включая историю искусства, психологию, статистику, биологию и экономику. 

Эти эффектные результаты могут напоминать о скорой конце профессионалов-экспертов, но есть основное различие между GPT-4 и человеческим экспертом: GPT-4 не обладает пониманием. Ответы, сгенерированные GPT-4 и всеми LLM, не происходят из логических мыслительных процессов, а из статистических операций. Большие языковые модели обучаются на огромном количестве данных из интернета. Веб-сканеры, боты, которые посещают миллионы веб-страниц и загружают их содержимое, создают наборы данных текста со всех видов сайтов: социальных сетей, вики и форумов, новостных и развлекательных сайтов. Эти текстовые наборы данных содержат миллиарды или триллионы слов, которые в большинстве случаев составлены в естественном языке: слова, образующие предложения, предложения, образующие абзацы. 

Чтобы научиться производить согласованный текст, модели обучают себя на этих данных с использованием миллионов примеров завершения текста. Например, набор данных для данной модели может содержать предложения типа “Была темная и бурная ночь” и “Столица Испании Мадрид”. Модель снова и снова пытается предсказать следующее слово после фразы “Была темная и” или “Столица Испании Мадрид”, а затем проверяет, правильная предсказала или нет, обновляя себя каждый раз, когда ошибается. С течением времени модель становится все лучше и лучше в этой задаче завершения текста, так что для многих контекстов – особенно тех, где следующее слово практически всегда одинаковое, например, “Столица Испании – это” – ответ, считающийся наиболее вероятным моделью, то что человек рассматривал бы как “правильный” ответ. В контекстах, где следующее слово может быть несколько разным, например, “Была темная и”, модель научится выбирать то, что люди считают по крайней мере разумным выбором, возможно “бурная”, но может быть, вместо этого “зловещая” или “плесневелая”. Этот этап жизненного цикла LLM, во время которого модель обучается на больших текстовых наборах данных, называется предварительным обучением. Для некоторых контекстов простое предсказание следующего слова не всегда приводит к желаемым результатам; модель может не понимать, что должна реагировать на инструкции вроде “Напишите стих о собаке” стихотворением, а не продолжать указание. Для создания определенного поведения, такого как следование инструкциям и улучшение способности модели выполнять определенные задачи, такие как написание кода или попытка продолжить непринужденное общение с людьми, LLM затем обучаются на специально разработанных наборах данных, включающих примеры этих задач.

Однако сама задача обучения LLM генерировать текст, предсказывая вероятные следующие слова, может привести к явлению, известному как галлюцинации – хорошо известной технической проблеме, при которой LLM уверенно выдумывает неверную информацию и объяснения при запросе. Возможность LLM предсказывать и дополнять текст основана на закономерностях, выученных в процессе обучения, но когда сталкиваются с неопределенным или несколькими возможными завершениями, LLM выбирают вариант, который кажется наиболее правдоподобным, даже если он не имеет основания в реальности.

Например, когда Google запустила своего чат-бота Bard, он совершил фактическую ошибку в своей первой публичной демонстрации. Bard прозванично заявил, что космический телескоп Джеймса Вебба (JWST) “сделал первые фотографии планет вне нашей собственной солнечной системы”. На самом деле первое изображение экзопланеты было сделано в 2004 году наличие крупного телескопа (VLT), а JWST был запущен только в 2021 году.

Галлюцинации – не единственный недостаток LLMs – обучение на огромных объемах интернет-данных также приводит к предубеждениям и проблемам с авторскими правами. Во-первых, давайте обсудим предубеждение, которое относится к различным результатам модели в отношении атрибутов личной идентичности, таких как раса, пол, класс или религия. Учитывая, что LLMs усваивает характеристики и шаблоны из интернет-данных, они, к сожалению, наследуют предрассудки, историческую несправедливость и культурные ассоциации, характерные для людей. В то время как люди имеют предубеждения, LLMs еще хуже, поскольку они склонны усиливать предубеждения, присутствующие в обучающих данных. Для LLMs мужчины – успешные врачи, инженеры и генеральные директоры, женщины – поддерживающие, красивые секретарши и медсестры, а ЛГБТ-люди – не существуют.

Обучение LLM на огромных объемах интернет-данных также вызывает вопросы о нарушении авторских прав. Авторские права представляют собой исключительные права на произведение и автор является единственной сущностью, уполномоченной на воспроизведение, распространение, выставление на показ или исполнение работы в течение определенного срока.

В настоящее время основной юридической проблемой, касающейся LLMs, является несосредоточенность на возможности авторских прав касательно их результатов, а скорее на потенциальном нарушении существующих авторских прав художников и писателей, чьи произведения вносят вклад в их формирование обучающих наборов данных. Authors Guild [▼1] призвал OpenAI, Google, Meta, Microsoft и другие компании соблюдать авторские права, давать должное признание и справедливо компенсировать писателей за использование защищенных авторским правом материалов при обучении LLMs. Некоторые авторы и издатели также попытались решить эту проблему самостоятельно.

Помимо авторских прав, разработчики LLMs в настоящее время сталкиваются с несколькими судебными исками от отдельных лиц и групп, связанными с авторскими правами —— Сара Сильверман, комедиант и актриса, присоединилась к группе авторов и издателей, подав заявление на судебное разбирательство против OpenAI с обвинениями в использовании их произведений, защищенных авторским правом, при обучении LLMs.

Хотя проблемы, связанные с галлюцинациями, предубеждением и авторскими правами, являются одними из самых документированных вопросов, связанных с LLMs, они не являются единственными. LLMs также закодируют чувствительную информацию, производят нежелательные или токсичные результаты и могут быть использованы противниками. Безусловно, LLMs отличаются способностью генерировать связный и контекстно-релевантный текст и должны быть использованы для повышения эффективности и других преимуществ во множестве задач и сценариев.

Исследователи также работают над решением некоторых из этих проблем, но вопрос о том, как наилучшим образом контролировать результаты моделей, остается открытым исследовательским вопросом, поэтому существующие LLMs далеки от безупречности. Их результаты всегда должны быть проверены на точность, фактичность и потенциальные предубеждения. Если вы получаете результат, который кажется слишком хорошим, чтобы быть правдой, вам следует проявлять осторожность и внимательно анализировать его. Ответственность лежит на пользователе, который должен проверять и корректировать любой текст, созданный с помощью LLMs, или, как мы говорим, генеративным ИИ: это ваш первый черновик, а не финальный.

Maggie Engler – инженер и исследователь, работающий над безопасностью масштабных языковых моделей. Она фокусируется на применении науки о данных и машинного обучения для борьбы с злоупотреблениями в онлайн-экосистеме и является экспертом в области кибербезопасности и доверия и безопасности. Мэгги также преподает в качестве преподавателя-соискателя в Школе информационных технологий Университета Техаса в Остине.

[Numa Dhamani](https://www.linkedin.com/in/numadhamani/) – инженер и исследователь, работающий на стыке технологий и общества. Она является экспертом в области обработки естественного языка с экспертизой в операциях воздействия, безопасности и конфиденциальности. Нума разработала системы машинного обучения для компаний из списка Fortune 500 и платформ социальных сетей, а также для стартапов и некоммерческих организаций. Она консультировала компании и организации, являлась главным исследователем программ исследований Министерства обороны США и внесла свой вклад в несколько международных рецензируемых журналов.