«Контролируйте затраты на искусственный интеллект через гибкое управление проектами в области науки о данных»

Оптимизация затрат на искусственный интеллект через гибкое управление проектами в научной сфере данных

План для управления гибкой организацией по науке о данных

Введение

Мир науки о данных сложен, и затраты на него выходят за рамки бюджетных ограничений. Ученые-аналитики данных являются значительными инвестициями для любой организации. К сожалению, неэффективность, такая как неиспользуемая инфраструктура, может привести к значительным потерям инвестиций в инфраструктуру данных. Гибкие методологии предлагают решение, улучшая рабочий процесс и сокращая время, испорченное зря. С помощью гибких методов традиционный процесс науки о данных оптимизируется и адаптируется для достижения более эффективной ценности. В этой статье рассмотрены скрытые затраты и показано, как гибкие практики могут сделать ваши практические инициативы в области науки о данных более экономичными.

Раздел 1: Скрытые затраты науки о данных

Ученые-аналитики данных с их сложными знаниями и опытом в работе с данными являются ценным ресурсом, и их производительность имеет первостепенное значение. Чем больше времени ученые-аналитики данных тратят на инновации и меньше на скучные задачи, тем больше траты без достаточного вознаграждения. Кроме того, тенденция ученых-аналитиков данных работать на своих собственных машинах, чтобы не ограничиваться центральным IT или создавать параллельные «теневые» IT-мощности, делает открытие знаний трудоемким и часто приводит к ситуациям, когда колесо изобретается заново.

Потери могут возникать в разных формах. Бостонская группа консультантов обнаружила, что только 44% моделей попадают в производство, а значительная часть времени ученых-аналитиков данных в день может быть потрачена на незначительные задачи, такие как настройка IT. Кроме того, когда ученые-аналитики данных усердно работают, затраты на инфраструктуру быстро накапливаются. Когда они заняты работой и отвлечены от инноваций, инвестиции в инфраструктуру данных могут фактически стать неиспользуемыми, непрерывно действующими и излишне предоставленными. Наконец, перенос данных в облако и из него тоже становится дорогим на больших масштабах искусственного интеллекта данных. В результате затраты на облако становятся сложными для управления в разных стеках, комбайнах и средах.

Машинное обучение, особенно генеративный искусственный интеллект, требует огромных объемов облачных вычислений и дорогих графических процессоров. В 2023 году известные модели, такие как ChatGPT, стоят организациям, таким как OpenAI, около 700 000 долларов в день на вычислительные затраты (SemiAnalysis in the Washington Post [1]). По одной оценке, для создания ChatGPT потребовалось тысячи графических процессоров и несколько месяцев тренировки, прежде чем он был задействован [2].

Борьба продолжается. Около 56% руководителей науки о данных нуждаются в помощи для правильного масштабирования их проектов (BCG). Например, данные, распределенные по нескольким облачным платформам, не только увеличивают затраты на хранение, но и затрудняют доступ и обмен данными между командами. Такой фрагментированный подход может еще более ударить по бюджету и подорвать сотрудничество и эффективность, которые являются неотъемлемыми в жизненном цикле науки о данных. Как преобразовать эти проблемы в возможности? Ответ может быть в принятии гибких методологий и структурированного процесса разработки.

Раздел 2: Процесс разработки и гибкая методология в науке о данных

В сегодняшней ситуации, когда эффективность и адаптивность являются ключевыми, гибкие методологии становятся все более актуальной частью проектов по науке о данных. Гибкие процессы способствуют адаптируемости, сотрудничеству и итеративному развитию, что может значительно влиять на экономическую эффективность проекта на всем протяжении его жизненного цикла. Типичный проект по науке о данных хорошо подходит для гибких практик, поскольку непосредственно проявляет ключевые черты гибкого подхода к управлению:

  • Инкрементальное и итеративное развитие — продукты науки о данных создаются постепенно. Большинство часто применяемых фреймворков для управления проектами по науке о данных имеют строго определенные фазы. Например, CRISP-DM включает понимание бизнеса, понимание данных, подготовку данных, моделирование и оценку.
  • Фокус на ценности — предсказательные модели, а также вся наука о данных в целом, сосредоточены на ценности, так как рекомендации моделей и исследования напрямую влияют на бизнес-решения.
  • Уполномоченная команда — команда по науке о данных достигает наибольшей продуктивности, когда ей разрешают задавать приоритеты и организовывать работу внутри нее. Это включает выбор конкретных моделей, инструментов, фреймворков, вычислительных ресурсов, языков программирования и т. д.
  • Непрерывное обучение — это еще один важный принцип гибкого подхода. Когда мы начинаем работать над моделью, у нас есть определенное видение, и мы начинаем создавать продукт (модель, отчет и т. д.) на основе этого видения. После первой итерации или после одной из фаз проекта (например, исследовательский анализ данных) мы получили дополнительные знания о проблеме, что позволяет нам также вносить соответствующие корректировки в видение.

Проекты по науке о данных часто требуют взаимодействия между фазами. Например, низкое качество модели может побудить к пересмотру сбора данных для накопления данных с лучшей предсказательной силой. Гибкая методология объединяет эту цикличность, позволяя командам адаптироваться и уточнять процессы.

Изображение автора

Вот краткий обзор того, как может выглядеть гибкий процесс для типичного проекта по науке о данных:

  • Деловая задача: Определите проблему и потенциальное влияние.
  • Сбор данных и первичный анализ: Собирайте, анализируйте и проверяйте данные.
  • Моделирование / Эксплоративный анализ данных: Разрабатывайте и тестируйте модели.
  • Операционизация: Развертывание моделей в производство.
  • Мониторинг и анализ: Постоянно контролируйте, анализируйте и усовершенствуйте модели.

Инструменты управления проектами, такие как Jira, позволяют гибким методологиям принимать различные формы. Если ваша платформа для науки о данных использует проекты для организации рабочих единиц, а ваш рабочий процесс использует эпики с дочерними задачами, такими как задачи, истории и ошибки, связывание эпической задачи с вашим проектом может оптимизировать как процесс разработки, так и отслеживание прогресса и нагрузки.

Для сложных проектов, в которых разные команды обрабатывают разные этапы работы, может быть более эффективно создавать проекты, связанные с задачами. Каждый билет представляет собой отдельный этап или группу этапов, обеспечивая лучшую согласованность с тонкими рабочими процессами.

Раздел 3: Инфраструктурные затраты и контроль

Управление инфраструктурой является ключевым, но часто недооцененным аспектом науки о данных. Сложности, связанные с созданием и управлением средами науки о данных, могут привести к значительным скрытым затратам, особенно когда ресурсы используются неэффективно. Когда инвестиции остаются бездействующими, работают непрерывно и переусердствуют, эти расходы быстро накапливаются и снижают возможности направить ценные ресурсы в более продуктивные сферы.

Модели машинного обучения, особенно глубокого обучения, требуют огромного количества вычислительных ресурсов – высокопроизводительных графических процессоров и облачных вычислительных экземпляров – и стоимость может быть ошеломляющей. Кроме того, коммерческие платформы могут иметь надбавки, которые повышают цену еще больше. Стратегический подход к планированию и инвестициям в инфраструктуру, сбалансированное сочетание потребности в передовых технологиях и императива контроля затрат.

Эта проблема не только потребляет финансовые ресурсы, но также ведет к потере потенциальной продуктивности и эффективности, поскольку ресурсы плохо распределяются для использования несколькими командами. К сожалению, этот вид потерь не всегда очевиден и часто требует тщательного отслеживания и управления для выявления и устранения. Применение гибких стратегий может разблокировать более значительную ценность от инвестиций в науку о данных, превращая потенциальные потери в продуктивность и инновации. Это также создает бумажный след для отслеживания затрат, использования ресурсов и, в конечном итоге, облегчает расчет ROI для отдельных проектов по науке о данных.

Раздел 4: Масштабирование, управление данными и гибкий рабочий процесс

Масштабирование проектов по науке о данных является огромной и часто недооцененной задачей. Согласно отчетам отрасли, только 56% проектов по науке о данных когда-либо превышают экспериментальную стадию и приносят бизнес-ценность. Одним из важных факторов являются растущие затраты на хранение и управление данными, а также затраты на различные аппаратные и программные решения. Однако применение гибких практик может служить лодкой-спасателем в этом растущем потоке расходов.

Гибкий рабочий процесс, характеризующийся итеративной разработкой и обратной связью, позволяет командам науки о данных выявлять неэффективность хранения. Например, избыточные наборы данных, которые часто можно избежать с помощью итерационных спринтов, сфокусированных на консолидации данных. Путем постепенного накопления наработок и повторного использования данных и кода гибкий рабочий процесс минимизирует необходимость в дополнительных ресурсах хранения.

Кроме того, гибкие практики, такие как контроль версий и ветвление функций, обеспечивают эффективное управление данными. Правильная версионирование упрощает возврат к предыдущим состояниям проекта, исключая необходимость в множественных резервных копиях и способствуя сбережению ресурсов хранения.

Гибкость также означает более эффективное распределение ресурсов. Благодаря собраниям Scrum и доскам Kanban команды получают прозрачное представление о том, кто что делает, что приводит к более осознанному распределению ресурсов и оптимальному использованию как человеческих, так и машинных ресурсов, меньшему времени простоя и, следовательно, непроизводительным затратам.

Гибкий подход также распространяется на автоматизацию. Итеративная разработка автоматизированных конвейеров для извлечения, преобразования и загрузки данных (ETL) может устранить ручные узкие места шаг за шагом, ускоряя процесс масштабирования и существенно снижая затраты, связанные с ручным трудом и устранением ошибок.

Однако важно отметить, что гибкий подход не является универсальным решением. Команды должны быть адаптивными, готовыми принимать обратную связь и вносить необходимые коррективы. Проекты по науке о данных многогранны и сложны, поэтому строгое следование любой методологии может вызвать операционные слепые зоны и неожиданные затраты.

Применение гибких методов для масштабирования не только связано с выполнением задач быстрее, но и с более умным выполнением задач. Сосредоточиваясь на итеративных улучшениях, прозрачности и автоматизации, вы имеете гораздо больше шансов успешно масштабировать свои проекты, сохраняя при этом контроль над затратами.

Раздел 5: Эффективность, автоматизация и роль ИТ

Эффективность является важным фактором, который объединяет сложную машину науки о данных. Без нее не только растут затраты, но и увеличивается время достижения цели, тем самым уничтожая конкурентное преимущество применения науки о данных в первую очередь. Один из часто пренебрегаемых факторов, который играет решающую роль в повышении эффективности, – это роль ИТ.

В то время как ИТ-отделы традиционно фокусируются на поддержании целостности системы и инфраструктуры, развитие науки о данных расширяет их функции. Они непосредственно участвуют в создании автоматизированных рабочих процессов и стимулировании использования гибких практик, что непосредственно влияет на экономию затрат.

Одним из практических способов повышения эффективности является привязка Эпиков, или больших рабочих блоков, к меньшим Проектам (или эквивалентным единицам работы, поддерживаемым вашей платформой науки о данных), а также привязка Задач/Историй к Проектам, что часто поддерживается гибкими методологиями. Эта интеграция служит ориентиром, помогающим командам справляться с сложностями проектов науки о данных. Каждый Эпик может быть разбит на несколько меньших задач или историй, что помогает определить объем проекта и распределить роли. Таким образом, обеспечивается не только прозрачность, но и ответственность, способствующая повышению эффективности.

Автоматизированные конвейеры и механизмы CI/CD (непрерывная интеграция/непрерывное развертывание), часто контролируемые ИТ, дополнительно усиливают эту эффективность. Автоматизация ускоряет рутинные задачи, освобождая время ученых-данных для выполнения более сложных задач и инноваций. Исключительно в этом случае роль ИТ является незаменимой. ИТ-отдел может настроить и поддерживать эти конвейеры, обеспечивая команде по науке о данных все необходимое для эффективной работы.

Еще одним аспектом является управление облачными ресурсами и вычислительной мощностью. Модели машинного обучения требуют интенсивных вычислений, которые занимают много времени и стоят немало. В этом случае ИТ может разумно распределять ресурсы в зависимости от гибкого плана и текущих задач-спринтов. Это позволяет избежать потери вычислительной мощности и обеспечить использование только необходимого количества ресурсов, что сокращает затраты.

Вкратце, роль ИТ развивается в направлении обеспечения применения гибких практик в науке о данных, что, в свою очередь, является ключевым фактором в контроле затрат и повышении эффективности. Путем внедрения гибких практик и автоматизации в команды по науке о данных, ИТ является опорой для гибкой структуры в науке о данных.

Раздел 6: Более широкие перспективы для бизнес-стратегии и конкурентного преимущества

По мере зрелости науки о данных она становится более ценным основным компонентом бизнес-стратегии, предлагая возможности для значительного конкурентного преимущества. С применением гибких методологий команды по науке о данных могут усилить этот эффект, превращая науку о данных из операционного инструмента в стратегический ресурс.

В контексте бизнес-стратегии гибкость означает адаптивность и реагирование на изменения на рынке. Организации, в которых гибкие процессы встроены в их проекты по науке о данных, легче меняют направление или масштабируются, обеспечивая превосходство над конкурентами. Например, разделение сложных проектов на управляемые “Эпики” или “Задачи/Тикеты” позволяет руководителям на высшем уровне понять траекторию сложных проектов по науке о данных и распределить ресурсы более рационально.

Более того, гибкие практики способствуют культуре постоянного совершенствования и инноваций. По завершении каждого спринта команды анализируют свой прогресс и меняют будущие спринты соответственно. Этот итеративный процесс создает среду, где не наказывают за неудачи, а видят в них возможность для обучения. В области науки о данных, где часто присутствуют неопределенность и сложность, эта культура является сильным конкурентным преимуществом.

Кроме того, гибкие процессы помогают управлять рисками – важным приоритетом для организаций, стремящихся доминировать на своем рынке с использованием науки о данных. Итеративность гибких методов, совместно с акцентом на постоянную обратную связь, позволяет выявлять риски на ранних этапах процесса. Это позволяет своевременно применять стратегии смягчения рисков, обеспечивая не только своевременное завершение проектов, но и достижение ожидаемых стандартов качества.

Сосредоточившись на этих принципах, бизнесы могут открывать новые возможности создания стоимости, значительно влияя на свои финансовые показатели и занимая лидирующие позиции в своих отраслях.

Раздел 7: Краткое руководство по созданию процесса разработки модели с использованием гибких методов

Навигация в сложности проектов по науке о данных может быть обременительной, особенно когда речь идет о создании моделей машинного обучения. Следуйте этому пошаговому руководству по созданию процесса разработки моделей с использованием гибких методологий, аналогичному описанной ранее интеграции с Jira. Цель – разобраться в процессе и сделать его доступным для команд по науке о данных, позволяя им работать более эффективно и результативно.

Шаг 1: Определите объем проекта и его цели

Перед тем, как приступить к любому проекту, ответьте на следующие вопросы, чтобы создать базовую основу для вашего гибкого проекта:

  1. Какую проблему вы пытаетесь решить?
  2. Какие показатели успеха?

Шаг 2: Разбейте проект на итерационные циклы или спринты

Разделите проект на более мелкие управляемые части, так называемые спринты. Они могут продолжаться от двух до четырех недель, в зависимости от сложности проекта и знакомства команды с задачами, связанными с ним.

Шаг 3: Свяжитесь с более широкими бизнес-целями (используя эпики или задачные тикеты)

Обеспечьте ясную связь вашего проекта по науке о данных, разбитого на спринты, с более широкими бизнес-целями. Используйте эпики или задачные тикеты, чтобы поддерживать эту согласованность, облегчая ее восприятие всеми заинтересованными сторонами, особенно лицами, принимающими решения, для понимания полной картины.

Шаг 4: Назначьте роли и создайте кросс-функциональные команды

В гибких методологиях кросс-функциональные команды, включающие научных сотрудников, инженеров по данным и бизнес-аналитиков, являются ключевыми. Рано назначайте роли и обязанности, чтобы облегчить гладкое сотрудничество.

Шаг 5: Используйте инструменты гибкого управления проектами

Инструменты, подобные Jira, могут быть очень полезными для отслеживания прогресса. Эти платформы позволяют эффективно распределять задачи и отслеживать прогресс спринтов.

Шаг 6: Стимулируйте сотрудничество и обратную связь

Открытое общение и постоянная обратная связь являются ключевыми. Поощряйте участников команды выражать свои мнения и заботы, обеспечивая возможность проекта приспосабливаться по мере необходимости.

Шаг 7: Отслеживайте прогресс, приспосабливайтесь при необходимости

Инструменты гибкого управления проектами помогают легко отслеживать прогресс проекта. Воспользуйтесь ими, и если дела идут не по плану, гибкая методология позволяет быстро адаптироваться. Вносите необходимые корректировки либо в текущем спринте, либо планируйте их на следующий спринт.

Шаг 8: Проведите ретроспективу и освоите уроки

После каждого спринта и по итогам проекта проводите встречу-ретроспективу, где команда обсуждает, что прошло хорошо, что не прошло и как улучшиться в следующих спринтах или проектах.

Заключение

В мире, где наука о данных и машинное обучение становятся все более важными для формулировки бизнес-стратегии и достижения конкурентного преимущества, управление затратами и повышение эффективности является ключевым. Применение гибких методологий предлагает надежную основу для решения этих задач.

При стремлении к масштабированию возможностей науки о данных рассмотрите значительные выгоды, которые может принести хорошо реализованная гибкая методология вашей организации.

Мы рекомендуем вам более детально изучить гибкие методологии и, возможно, заняться дополнительными чтениями или практическим обучением в процессе вашего пути в науку о данных. С правильными практиками ваши проекты в области науки о данных станут не просто центром расходов, а ценным активом, способствующим достижению более широких бизнес-целей.

Ссылки

[1] Уилл Оремус, Искусственные интеллект-чатботы теряют деньги при каждом использовании. Это проблема., The Washington Post, июнь 2023, последний доступ 30 августа 2023, https://www.washingtonpost.com/technology/2023/06/05/chatgpt-hidden-cost-gpu-compute/

[2] Андрей Карпати, Обзор GPT, Microsoft BUILD, 23 мая 2023, https://www.youtube.com/watch?v=bZQun8Y4L2A