Как StackOverflow приспосабливается перед лицом генеративного искусственного интеллекта

Как StackOverflow адаптируется к искусственному интеллекту

StackOverflow, самая популярная платформа среди разработчиков программного обеспечения для получения поддержки по программированию, недавно прошла через трудности. Несмотря на впечатляющий процент вопросов, на которые были даны ответы (69%), трафик на StackOverflow снизился. Данные Similarweb показывают, что трафик снизился на 14% по сравнению с прошлым годом (StackOverflow говорит, что это число ближе к 5%). В основном, эту тенденцию объясняет появление продуктов искусственного интеллекта для написания кода, таких как ChatGPT и GitHub Copilot. Эти продукты обладают значительными возможностями по написанию кода и, следовательно, способны предоставлять поддержку в программировании, по крайней мере, частично так же хорошо, как StackOverflow. Ирония заключается в том, что несколько крупных языковых моделей (LLM), лежащих в основе этих продуктов искусственного интеллекта, были обучены на основе скрапинга данных StackOverflow.

Компания получила довольно жесткую оценку со стороны СМИ в связи с этими событиями. Business Insider в своей статье “Смерть от LLM” написал:

Добро пожаловать в будущее интернета в мире искусственного интеллекта. Онлайн-сообщества, такие как Stack Overflow и Википедия, процветали как центры экспертов и любознательных пользователей, где они могли свободно обмениваться информацией. Теперь эти цифровые места встреч становятся жертвами крупных технологических компаний, охотящихся за данными пользователей, чтобы обучать свои большие языковые модели.

Новые продукты, появляющиеся в результате этого бума генеративного искусственного интеллекта, ставят под сомнение будущее этих онлайн-форумов. Чат-боты отвечают на вопросы четко, автоматически и часто даже приятно – так что людям не нужно взаимодействовать с другими людьми, чтобы получить информацию.

Во время всего этого внимания StackOverflow проявил стабильность и сформулировал свой двухсторонний подход к решению этой проблемы:

  1. Несколько недель назад они объявили о том, что начнут взимать плату с крупных разработчиков искусственного интеллекта, которые используют более 50 миллионов вопросов и ответов платформы в своих моделях обучения (мы рассмотрели эту проблему в статье о скрапинге данных ранее).
  2. На прошлой неделе они запустили продукт OverflowAI, который представляет собой набор действительно полезных функций генеративного искусственного интеллекта, которые могут помочь начать их вторую жизнь – сегодня мы сосредоточимся на этом.

В этой статье мы подробно рассмотрим следующие вопросы:

  • Инструменты написания кода на основе искусственного интеллекта, нарушающие StackOverflow.
  • Что делает OverflowAI.
  • Основные тенденции стратегии StackOverflow.

Инструменты написания кода на основе искусственного интеллекта, нарушающие StackOverflow

На рынке сегодня доступно несколько инструментов для написания и редактирования кода на основе искусственного интеллекта. Это либо независимые продукты (такие как OpenAI Codex, ChatGPT, Google Bard), либо продукты, которые интегрированы непосредственно в существующие платформы (такие как GitHub Copilot, Replit Ghostwriter, Amazon CodeWhisperer). У них есть широкий спектр возможностей, включая генерацию кода, редактирование кода, автодополнение и отладку.

Продукты с нативным распространением (например, GitHub Copilot) имеют большое преимущество, поскольку они могут работать плавно в средах, которые программисты уже используют сегодня, и мы увидим, как все больше продуктов пытаются интегрироваться в существующие среды. Например, у CodeGPT есть плагин, который позволяет разработчикам использовать продукт в Visual Studio Code (популярный инструмент для редактирования кода).

Существующие инструменты для написания кода на базе искусственного интеллекта хороши при определенных задачах. Например, в этой теме на Reddit собраны отзывы нескольких веб-разработчиков о GitHub Copilot – общая тенденция состоит в том, что продукт полезен в определенных ситуациях, когда разработчику нужно написать новый код и он не хочет тратить время на его создание с нуля. Даже в таких ситуациях результаты иногда получаются неоднозначными.

Причина этого неудивительна. В концептуальном плане большие языковые модели (LLM) обрабатывают огромное количество данных и генерируют вывод на основе следующей конструкции: в определенном контексте, для заданного вопроса, какое слово/текст наиболее вероятно следует за предыдущим словом? Они в основном вычисляют вероятность следующего слова и генерируют вывод на основе этого. Несмотря на это, благодаря огромному объему данных, использованных при обучении этих моделей, результаты для более общих случаев использования ChatGPT (например, написание электронной почты или резюмирование страницы) оказались впечатляющими. Однако важно помнить, что языковые модели по своей природе имеют ограниченные аналитические/математические возможности. Другими словами, когда вы спрашиваете модель: “Что такое 2+2?”, она может дать вам правильный ответ – не потому что она знает математику, а потому что она видела такой текстовый шаблон в своих обучающих данных.

Аналогично, когда дело доходит до генерации кода, модель не действительно “знает” основные концепции программирования, но предсказывает результаты на основе своего обучения на огромном объеме текстовых данных. В результате получается такая обратная связь по GitHub Copilot – иногда он хорошо генерирует базовый код, который вам нужен, но его способность действительно понимать код, отлаживать и предоставлять объяснения ограничена. Это улучшится со временем, но сложно сказать, достигнет ли это высокой точности и надежности.

Генеральный директор StackOverflow Прасант Чандразекар описывает это кратко:

Одной из проблем современных систем LLM является то, что они будут предоставлять неправильные ответы с такой же уверенностью, как правильные, и будут «галлюцинировать» факты и цифры, если они почувствуют, что они соответствуют шаблону ответа, который ищет пользователь.

В какой-то момент вам нужно будет знать, что вы создаете. Возможно, вам придется отлаживать его, и вы не будете иметь ни малейшего представления о том, что только что создали, и пропустить учебный путь, сокращая сроки.

Это возможность для StackOverflow – их снижение трафика может быть постоянным, и очень вероятно, что программисты станут реже обращаться к StackOverflow за более простыми вопросами (например, они могут больше не посещать StackOverflow для готовых алгоритмов сортировки). Но место, где продукт может сиять, заключается в следующем: 1) предоставление высокоточных/надежных ответов на более сложные вопросы, на которые модели языка могут не иметь возможности ответить, и 2) предоставление ответов на вопросы в новых технологиях/проблемных областях, на которые модели ранее не имели данных для обучения. OverflowAI разработан таким образом, чтобы непосредственно использовать эту возможность.

Что делает OverflowAI

Они делают ставку на три ключевых аспекта – прямые ответы на вопросы, удобство использования в разработческих средах и усиление знаний в предприятиях.

Поиск OverflowAI предоставляет прямые ответы пользователям в формате вопрос-ответ (подобно ChatGPT), но также предоставляет несколько ссылок на фактические записи StackOverflow. Помимо того, что это помогает создать доверие, это также дает пользователям возможность углубиться, когда ответ, предоставленный ИИ, не полностью решает их проблему. Это находит деликатный баланс между предоставлением прямого ответа, когда вопрос простой, но также направляет пользователя по более исследовательскому пути для сложных вопросов.

Поиск OverflowAI

Если пользователь не удовлетворен ответами, он может ввести интерфейс в виде чата для задания дополнительных вопросов. Если ни один из ответов не удовлетворяет, они могут попросить StackOverflow составить вопрос от их имени, готовый к размещению на форуме вопросов и ответов. Такой опыт также спасает пользователей от ситуации, когда вопрос, который они задают, уже был ранее отвечен.

Автоматическое составление вопроса

Продукт также уделяет внимание удобству, позволяя использовать все эти возможности непосредственно из Visual Studio Code через расширение. Это помогает StackOverflow эффективно конкурировать с нативно интегрированными помощниками по кодированию, позволяя разработчикам получать ответы прямо из своих сред разработки (вместо необходимости переключаться и искать из браузера).

Расширение внутри Visual Studio Code

Кроме того, для корпоративных клиентов OverflowAI создает возможность подключения нескольких источников информации внутри компании (внутренний вопрос-ответ, вики-страницы, хранилища документов), чтобы обеспечить единый опыт вопрос-ответ для разработчиков. Возможность использовать внутренние и данные StackOverflow, а главное, предоставлять это легко в интерфейсе типа вопрос-ответ, может значительно повысить производительность организаций по разработке. Они также планируют запустить интеграцию с Slack в качестве безупречного интерфейса для использования этой возможности.

Захватывающим в подходе к продукту OverFlowAI является то, что он использует основной актив компании (ответы на сложные вопросы), представляет ответы в высокоудобном интерфейсе, где бы пользователи ни находились (будь то в Slack или в разработческих средах) и, в свою очередь, создает цикл, в котором пользователи могут использовать генеративный ИИ, чтобы задавать новые вопросы.

StackOverflow не является публичной компанией – они принадлежат Prosus, которая, в свою очередь, является частью большей холдинговой компании Naspers, которая публично торгуется. Поэтому сложно получить чистые данные о доходах, но отчет Prosus, опубликованный в мае 2022 года, бросает некоторый свет:

  • Компания заработала около $89 млн. дохода в 2022 году, разделив его поровну между корпоративным продуктом StackOverflow for Teams и продуктами Reach (реклама и брендинг работодателей).
  • С 2021 по 2022 год доход от StackOverflow for Teams вырос на 69%, в то время как доход от продуктов Reach снизился на 12% (возможно, на 2022 год повлияли внешние факторы, такие как замедление найма).

Данные о доходах от владельца StackOverflow Prosus (отчет за май 2022 года).

Эти данные о доходах, совместно с тем, что делает продукт OverflowAI, указывают на несколько явных тенденций, куда развивается StackOverflow в мире генеративного искусственного интеллекта (эти тенденции также могут быть распространены на другие платформы вопросов и ответов):

  • Их рекламный бизнес, успех которого непосредственно связан с трафиком, находится в упадке. Это не обязательно является трагическим и указывает на более общую тенденцию. Вероятно, будет меньше просмотров/посетителей, потому что пользователи будут получать ответы на более простые вопросы напрямую (что хорошо), и, следовательно, реклама становится менее важным источником дохода.
  • StackOverflow будет продолжать быть ценным источником ответов на сложные вопросы, и объем вопросов и ответов будет продолжать расти с помощью генеративного искусственного интеллекта компании, направленного на автоматическое формирование/публикацию вопросов. Кроме того, вероятно, что если StackOverflow сможет поддерживать работу двигателя контента, качество контента на платформе улучшится, так как повторяющиеся/простые вопросы больше не будут составлять основную массу контента.
  • StackOverflow будет усиленно работать над созданием опытов, где они смогут предоставлять наибольшую ценность для пользователей (например, OverflowAI Search и расширение для Visual Studio Code) и сосредоточится на линиях продуктов, где клиенты готовы платить за эти превосходные опыты (например… StackOverflow для команд).
  • Программы лицензирования данных, где они взимают плату у компаний искусственного интеллекта за обучение на их данных, будут развиваться.

Все тенденции указывают на то, что StackOverflow успешно перестраивается на следующую фазу развития компании, и компания сделала правильные инвестиции в продукт/бизнес, чтобы противостоять потенциальным нарушениям. Кроме того, они также выполнили ценную службу для сообщества и разработали методику, которую могут использовать другие платформы вопросов и ответов. В целом, я оптимистичен относительно направления, которым они движутся, и считаю, что это приведет к процветанию экосистемы контента в будущем.