Организация генеративного искусственного интеллекта 5 уроков, извлеченных из команд по науке о данных

5 уроков от команды по науке о данных для генеративного искусственного интеллекта

ЛЛМы обещают огромные возможности, но для создания устойчивой ценности потребуется больше, чем команда-тигры

Изображение с любезного разрешения автора

Вы справились!

После того, как исполнительное руководство в общих чертах обещало заинтересованным сторонам, что новые функции Gen AI будут внедрены в организацию, ваша команда-тигры ускорила создание МВП, чтобы отметить галочку. Интеграция OpenAI API в ваше приложение оказалась не такой сложной, и, возможно, она окажется полезной.

Но что произойдет дальше? Команды-тигры не могут бежать бесконечно. У каждого участника есть другая роль внутри организации, которая снова потребует большую часть их времени и внимания.

Не говоря уже о том, что есть причина для типичных процессов и структур, которые были игнорированы и ускорены для этого проекта. Оказывается, они очень важны для обеспечения соответствия продукта, перехода от разработки к эксплуатации и оптимизации затрат (среди прочего).

Думая об этом, теперь, когда проект завершен, действительно нет никакой платформенной инфраструктуры, которая могла бы помочь масштабированию следующего раунда моделей LLM или других функций продукта Gen AI.

Похоже, пришло время задуматься о том, как структурировать и поддерживать команду Gen AI в вашей организации данных. И хотя процесс может выглядеть легким на этих гладких демонстрациях продукта, есть признаки непредсказуемых проблем впереди:

  • Если вы не являетесь одним из полудюжины крупных технологических гигантов, то экспертность в области науки о данных и Gen AI является редкостью. На данный момент у никого действительно нет значительного опыта. Для всех это ново.
  • Бизнес знает, что хочет Gen AI, но пока не знает почему. Технология захватывает, но конкретные применения неясны. У никого нет большого опыта поддержки развертывания.
  • Экосистема возникла за одну ночь, но поддерживающие технологии и лучшие практики еще не созрели. Риски обычно непредвидены, а неопределенность высока.

Если это звучит знакомо, то потому что это так. Команды науки о данных столкнулись со всеми этими проблемами в своих алгоритмах машинного обучения и приложениях за последние пять лет или около того.

Это был мучительный опыт. В 2020 году Gartner сообщил, что только 53% проектов машинного обучения перешли от прототипа к производству — и это в организациях с некоторым опытом использования искусственного интеллекта. Для компаний, которые все еще работают над развитием культуры, основанной на данных, эта цифра, вероятно, выше, и некоторые оценки процента неудач достигают почти 90%.

Я, как человек, руководивший команды данных в The New York Times и столкнувшийся с многими из этих проблем, могу подтвердить, насколько важными являются организационная структура, процессы и платформы для успеха таких инициатив.

Я также беседовал с сотнями руководителей по данным из различных компаний и отраслей, которые выразили общий набор извлеченных уроков. Эти лучшие практики, выработанные через кровь, пот и слезы команд науки о данных, должны быть в приоритете для каждого руководителя данных, задумывающегося о своей долгосрочной стратегии Gen AI и структуре команды.

Урок 1: Понимание компромиссов в структуре и кривой зрелости

Как нельзя проснуться без тренировок и пойти пробежать марафон, ваша организация не может создать организационную структуру Gen AI, которая бы соответствовала ведущим командам по данным, пока не укрепит свои операционные мускулы.

Одна из самых распространенных ошибок, которую я видел в этом отношении, — растяжение пула талантов на пределе в спешке децентрализации и внедрения в компании (возможно, в рамках “сети данных”). Хотя вы получаете лучшее понимание и близость к бизнесу, создание устойчивой ценности сложно.

Могут быть отдельные успешные случаи, но они часто связаны и зависят от таланта одного или двух самостоятельных инициаторов. Талант в области науки о данных редок, а старший талант в области науки о данных, который может независимо определять, приоритизировать, коммуницировать и выполнять высокоценные проекты, еще более редок.

Когда эти талантливые люди уходят, институциональные знания, кодовая база и динамика проекта часто уходят вместе с ними. Оставшиеся члены команды вынуждены стать археологами, пытающимися определить назначение и смысл артефактов, оставленных этими заброшенными проектами. В большинстве случаев приходится начинать практически с нуля.

Изображение с любезного разрешения автора.

Консультативная модель часто оказывается более успешным подходом для небольших команд по науке о данных и машинному обучению. Это объединяет критическую массу талантов, которые могут быть направлены на наиболее приоритетные проекты. Потенциальный недостаток, который нужно устранить, заключается в том, что вы хотите предотвратить превращение центра превосходства в лабораторию, которая производит модели с позолоченными деталями, которые могут понравиться профессору, но не соответствуют бизнес-задаче, которая стоит перед ними.

По мере роста команды и продвижения по кривой зрелости, становятся более целесообразными несколько отличные организационные структуры. “Специализированная” модель обычно сосредотачивает ресурсы по науке о данных и машинному обучению вокруг нескольких высоко ценных проблем с командами, размещенными в соответствующей деловой области.

Самым распространенным выражением этого является случай, когда машинное обучение является основной частью продукта (например, персонализация или обнаружение мошенничества), и связь с командой продукта или инженерной командой важнее, чем связь с основной командой по данным. Часто основная команда по данным имеет собственные инвестиции в науку о данных, в значительной степени независимые от специализированных команд.

Эта модель может быть успешной, но она создает неэффективности и силосы. Например, как центральные, так и специализированные команды обычно имеют настраиваемые платформы с небольшим количеством общих сервисов. Потоковые события данных в пределах домена продукта могут получить выгоду от обогащения пользовательскими данными, собранными централизованной командой, но такое соединение может никогда не быть установлено.

Изображение предоставлено автором.

Другая организационная структура на более поздних этапах может быть описана как “платформенная” модель. Встроенные и специализированные модели могут страдать от недостатка видимости и согласованности между деловыми областями, рассматривая каждую проблему в науке о данных с использованием собственного полноценного решения, несмотря на внутренние сходства в типе решаемых проблем в разных областях.

Решением является создание некоторого осознанного разделения от деловых областей или вертикалей, чтобы не приспосабливать их операционную модель, как вы делаете с другими горизонтальными платформенными командами.

Одним из основных преимуществ рассмотрения машинного обучения как платформенного подхода является возможность инвестировать в общую инфраструктуру платформы, после того как была продемонстрирована ценность каждого приложения машинного обучения, поскольку это снижает ресурсы и затраты на развертывание и поддержку новых приложений. Эти инвестиции изначально должны быть небольшими по сравнению с инвестициями в прикладные команды, позволяя им действовать относительно независимо и преследовать долгосрочные цели своих деловых партнеров.

В этой модели платформы может быть создана команда GenAI, которая будет иметь полномочия и инженерные ресурсы для настройки своего стека по мере необходимости для достижения ценности, в то время как она будет сотрудничать с другими платформенными командами для повторного использования инфраструктуры и стандартов, которые обеспечат постоянную ценность для организации. Я настоятельно рекомендую использовать эту модель вместо попыток распределить Gen AI между множеством команд. Размер имеет значение.

Урок 2: Организация по случаю использования, а не по функции бизнеса

Недавно я вел разговор с руководителем данных в медиа-компании, который послужил вдохновением для этого поста. Он сказал мне, что их команды по науке о данных были организованы по доменам (в данном случае медиа-свойствам).

Команды по науке о данных работали над однотипными проектами в каждом домене, а именно алгоритмами рекомендации статей. Несомненно, каждый домен имеет выгоду от специализированного фокуса на свои конкретные проблемы, и каждая команда по науке о данных получает преимущество от близости к соответствующим деловым и редакционным партнерам. Но это помогло осветить некоторые недостатки этой организационной структуры: неэффективное использование талантов и отсутствие общей инфраструктуры, несмотря на то, что многие команды решают однотипные проблемы ранжирования контента.

В “New York Times” мы нашли эффективным организацию команд по науке о данных вокруг общих проблем. После того, как модель была проверена в одном домене, обычно оказывалось более эффективным внести изменения и модификации в нее для уникальных входных данных и ограничений другого, чем иметь две команды, которые создают две модели параллельно. Логически это имеет смысл, всегда требуется больше времени на создание прототипа, чем на последующий продукт.

Таким же образом следует рассматривать и Gen AI. Команда должна сосредоточиться на ценном применении, соответствующем технологии, например, персонализированные предложения по выбору мест на рынке событий или локализация языка для медиа-сайта, а затем применить это решение к другим областям, где это имеет смысл.

Урок 3: Сосредоточьтесь на долгосрочной ценности и сложных проблемах

“Долгосрочный” имеет особое значение в мире технологий и данных, где средняя продолжительность жизни главного директора по данным примерно такая же, как у банкира скорлупы арахисового масла.

Будет ли цель все еще проблемой, когда придет время для завершения проекта? Будет ли она все еще актуальной через пять лет, в течение которых новая модель сможет пройти итерацию и найти дополнительную ценность?

Реальность такова, что если вы не используете готовую модель, то машинное обучение и инициативы Gen AI могут быть дорогими (хотя LLM быстро становятся коммодитизированными). Разработка хорошо обученной и управляемой модели, которая подходит для определенной задачи, может занять месяцы, а в некоторых случаях даже годы.

Увеличение по сравнению с другими альтернативами должно стоить того. Например, модель машинного обучения, разработанная для оптимизации рекламных затрат на Facebook, может показаться привлекательной, пока вы не поймете, что это делается нативно внутри рекламной платформы.

Тем не менее, сосредоточение на долгосрочной ценности не означает создание плана, в котором первый релиз запланирован на 2025 год.

Урок 4: Сотрудничество команд искусственного интеллекта с бизнес-спонсором

Как можно обеспечить, чтобы ваши команды по науке о данных и генеративному искусственному интеллекту фокусировались на значимых бизнес-проблемах? Сопоставьте их с бизнес-спонсором.

Поиск инновационных применений новых технологий, скорее всего, не будет линейным путешествием, и предполагается отклонения. Крепкое партнерство с бизнес-спонсором служит компасом, гарантирующим, что команда никогда не отклонится слишком далеко от бизнес-ценности, исследуя новые возможности. Я также заметил, что это расширяет перспективу команды за пределы горизонта на проблемы, которые затрагивают разные команды.

Фото от Jamie Street на Unsplash

Крепкий бизнес-спонсор также будет обеспечивать команду всем необходимым во время ее путешествия, обеспечивая ресурсы и помогая преодолевать любые трудности, связанные с внутренними процессами или политикой. Частью этой навигации, вероятно, будет согласование планов работы между командами для создания гармоничного опыта на фронтенде и бэкенде.

Поскольку эти инициативы скорее всего будут растягиваться на несколько кварталов, важно также вовлечение руководства, чтобы предотвратить преждевременное прекращение этих проектов.

Урок 5: Понимание предварительных требований к платформе данных

Создание машины, которая создает машину, всегда более сложно, чем производство конечного продукта. Это верно как для фабрики, производящей автомобиль, так и для платформы данных, используемой для разработки и внедрения больших языковых моделей.

Бизнес-лидеры всегда имеют в виду бизнес-цель и часто пренебрегают инвестициями в платформу данных, необходимые для достижения этой цели. Они не злонамеренны, они просто полагаются на вас, эксперта по данным, чтобы вы сообщили им, что требуется.

Например, команды машинного обучения инвестировали в создание или покупку хранилищ особенностей и решений MLops. Не говоря уже о фундаментальных инвестициях в облачные среды данных, качество данных и сопутствующие дополнительные возможности.

Для инициатив GenAI большая часть архитектуры платформы данных и конвейера данных останется неизменной (и если вы еще не инвестировали в современный стек данных, это будет отправной точкой). Нельзя иметь проект Gen AI без доступных, высококачественных данных. Однако будут добавлены дополнительные решения, специфичные для инженерии LLM, такие как размещение моделей, кэширование, фреймворки искусственного интеллекта и многие другие, которые еще не были изобретены.

Изучайте прошлое или повторяйте его

Нет сомнений в том, что Gen AI является революционной технологией, и изучение способов ее использования в масштабе создаст новый набор болезненных уроков. Однако нет необходимости начинать с чистого листа. Структурируйте свои команды по науке о данных и Gen AI, чтобы обеспечить успех в долгосрочной перспективе.

Эту статью написана совместно с Майклом Сегнером.

Подписывайтесь на меня в VoAGI, чтобы получать больше историй о руководстве данными, применении науки о данных и связанных темах. Подпишитесь, чтобы получать мои истории на почту.