Уроки из десятилетия генеративного искусственного интеллекта

Lessons from a decade of generative artificial intelligence

С недавним шумом вокруг генеративного искусственного интеллекта, возглавляемого ChatGPT и Bard, бизнесы все чаще стремятся понять сферы применения этой технологии. Это отличное время для начала разговоров о мощи искусственного интеллекта, но генеративный искусственный интеллект не является новым явлением. Генеративное моделирование (т. е. генеративный искусственный интеллект) развивается за кулисами уже более десяти лет, благодаря трем основным факторам: разработке программных библиотек с открытым исходным кодом, таких как Tensorflow в 2015 году и PyTorch в 2016 году; инновациям в архитектурах и обучении нейронных сетей; и улучшению аппаратного обеспечения, такого как графические процессоры (GPU) и тензорные процессоры (TPU) для обучения и вывода на массовых нейронных сетях.

В этой статье я постараюсь объяснить, что такое генеративные модели, как они достигли своего текущего состояния и как их следует использовать, а также рассмотреть их ограничения.

Что такое генеративные модели и откуда они появились?

Генеративные модели изучают распределение тренировочных данных с целью возможности генерации или создания синтетических данных, статистически схожих с оригинальными данными. Для этого требуется двухэтапный процесс: во-первых, модель обучается на большом наборе статических данных, а затем модель используется для генерации новой точки данных. Преимущество такого двухэтапного процесса заключается в том, что после обучения модели новые данные могут быть дешево созданы в масштабе.

В то время как ранние генеративные модели были относительно простыми, такими как скрытые модели Маркова, наивные байесовские модели или смеси гауссовых распределений, внедрение GPU в основное машинное обучение около 2010 года позволило создавать более гибкие генеративные модели на основе глубоких нейронных сетей. В это же время начали появляться новые хорошо оснащенные исследовательские лаборатории, такие как Deepmind (2010), Google Brain (2011) и Facebook AI Research (2013), а позже появился OpenAI в конце 2015 года, что дальше стимулировало развитие глубокого обучения и, следовательно, генеративного моделирования. В это время появились множество новых архитектур, таких как вариационные автокодировщики (VAE, 2013) и генеративно-состязательные сети (GAN, 2014), которые продемонстрировали передовые результаты в генерации изображений.

Для облегчения разработки и применения этих более сложных моделей Google выпустил в 2015 году библиотеку с открытым исходным кодом Tensorflow, за которой в 2016 году последовал PyTorch от Facebook. Эти библиотеки сделали глубокое обучение доступным для широкого круга практиков и исследователей, что привело к быстрому развитию новых моделей и новых приложений.

Одной из таких прорывных моделей был Transformer – глубокая модель машинного обучения, появившаяся в 2017 году и являющаяся основой всех современных передовых языковых моделей, таких как GPT-4. Два конкретных модели на основе Transformer, появившиеся на следующий год в 2018 году, были BERT (Bidirectional Encoder Representations from Transformers) от Google и GPT (Generative Pretrained Transformer) от OpenAI. Обе они были разработаны как универсальные языковые модели для выполнения различных задач, от классификации текста и анализа настроений до перевода языка. Еще одна прорывная модель, появившаяся в 2019 году и вдохновленная термодинамикой, была модель диффузии для генерации изображений.

На сегодняшний день диффузионные и трансформаторные модели являются ведущими подходами для текст-изображение и языковых моделей соответственно, достигая передовых результатов. Например, ChatGPT был выпущен в 2022 году, а более продвинутая модель GPT-4, выпущенная в этом году (2023), использует архитектуру трансформера, в то время как модели, такие как Stable Diffusion и Midjourney, являются моделями на основе диффузии. За последние пару лет тенденция в генеративном искусственном интеллекте заключается в обучении все более крупных моделей с большим количеством параметров для достижения все более высоких результатов. Эти инженерные изыскания, такие как GPT-4 и Midjourney v5, опирались на сочетание улучшенного аппаратного обеспечения, хорошо разработанных программных библиотек и эффективных архитектур глубоких нейронных сетей (т. е. трансформеров) и стали настолько популярными частично потому, что они легко использовать и доступны для широкой публики.

Применение генеративных моделей

По мере того, как генеративные модели начинают производить все более убедительные результаты и становятся все более доступными для общественности через простые API, они становятся более подходящими для разнообразных приложений. В случае изображений большинство таких приложений связаны с созданием контента и дизайном. Примечательным примером применения генеративных моделей является появление deepfakes. В то время как это может иметь положительные применения в киноиндустрии и рекламе, deepfakes также могут использоваться злоумышленниками для распространения дезинформации. В случае языковых моделей, таких как ChatGPT, Bard и GPT-4, применения включают краткое изложение текста, перевод и завершение, что особенно полезно для маркетингового контента и внутренней коммуникации.

С технической стороны, языковые модели, такие как Codex и GitHub Copilot, успешно используются для генерации кода, который может ускорить разработку и помочь программистам. Однако, конечно же, эффективное обучение моделей – это искусство создания подсказок.

Проблемы и риски, которые следует учесть

Основной риск существующих генеративных моделей заключается в том, что они являются черными ящиками с неуправляемым выводом. Эта проблема может проявиться в нескольких различных формах, например:

  1. Нет способа явно предотвратить эти модели от создания оскорбительного или графического текста и изображений. Все еще требуется вмешательство человека, чтобы отфильтровать неприемлемый материал.
  2. Генеративные модели могут возвращать значительные части обучающих данных, вызывая проблемы с конфиденциальностью и авторским правом. Эта проблема была поднята в недавнем иске, поданном против Stability AI компанией Getty Images.
  3. Информация, полученная от языковых моделей, может быть неточной или вводящей в заблуждение, так как модель не имеет возможности проверить свой собственный вывод. Таким образом, на эти модели не следует полагаться при создании контента в ситуациях, связанных с медициной, финансами или юридическими вопросами. Более того, при использовании инструментов для генерации кода, таких как GitHub Copilot, необходимо быть осторожным перед внедрением кода в производство, так как могут быть пропущены крайние случаи или ошибки, которые могут нарушить процесс производства.

Это всего лишь несколько примеров рисков работы с генеративными моделями. Для смягчения этих рисков эффективные генеративные модели следует использовать в сотрудничестве с людьми, чтобы контролировать и корректировать их результаты при необходимости.

Будущее генеративного искусственного интеллекта

Можно с уверенностью сказать, что будущее генеративного искусственного интеллекта будет продолжать развиваться под воздействием тех же сил, которые привели его к текущему состоянию. Улучшения в аппаратной и программной части увеличат возможности моделей, которые мы сможем тренировать. Новые инновации в архитектуре и обучении неизбежно появятся, что приведет к скачкам в производительности с появлением новых передовых моделей. Более того, с новыми возможностями возникают новые проблемы. Законы об авторском праве и интеллектуальной собственности должны быть адаптированы, и, вероятно, возникнут дополнительные вопросы конфиденциальности относительно того, какие данные используются для обучения этих моделей по мере развития правил и регулирования в области искусственного интеллекта и данных. Технология глубокой фейковки также будет продолжать совершенствоваться, что позволит использовать более продвинутые методы распространения дезинформации и поддельного контента. Несмотря на эти проблемы, будущее генеративного искусственного интеллекта остается светлым, с потенциалом революционизировать отрасли, от здравоохранения до кино до финансов.