Ускорение разработки искусственного интеллекта и машинного обучения в BMW Group с помощью Amazon SageMaker Studio

Ускорение прогресса разработки искусственного интеллекта и машинного обучения в компании BMW Group с использованием Amazon SageMaker Studio

Этот пост написан совместно с Марком Нойманом, Амором Штейнбергом и Маринусом Кромменхоэк из BMW Group.

Группа BMW, с головным офисом в Мюнхене, Германия, состоит из 149 000 сотрудников по всему миру и имеет более 30 производственных и сборочных предприятий в 15 странах. В настоящее время, Группа BMW является ведущим мировым производителем премиальных автомобилей и мотоциклов, а также предоставляет премиальные финансовые и мобильные услуги. Группа BMW устанавливает тенденции в области технологий производства и устойчивости, являясь лидером инноваций с интеллектуальным материаловедением, технологическим сдвигом в сторону цифровизации и ресурсоэффективным производством.

В условиях все большей цифровизации и быстро меняющегося мира, стратегии бизнеса и разработки продуктов Группы BMW в значительной степени полагаются на принятие решений на основе данных. Следовательно, потребность в ученых-исследователях данных и инженерах машинного обучения (ML) существенно выросла. Эти квалифицированные специалисты занимаются созданием и внедрением моделей, которые повышают качество и эффективность бизнес-процессов BMW и обеспечивают информированность в принятии решений руководства.

Ученым-исследователям данных и инженерам машинного обучения необходимы подходящие инструменты и достаточная вычислительная мощность. Поэтому BMW несколько лет назад создала централизованную инфраструктуру машинного обучения и глубокого обучения на своей территории и постоянно ее модернизировала. Для создания основы для развития искусственного интеллекта BMW Group необходимо было сделать прорыв в области масштабируемости и эластичности, одновременно снизив операционные расходы, расходы на лицензирование программного обеспечения и управление оборудованием.

В этом посте мы расскажем о том, как BMW Group, сотрудничая с AWS Professional Services, создала сервис JuMa (Jupyter Managed) для решения этих проблем. JuMa – это сервис платформы искусственного интеллекта BMW Group для аналитиков данных, инженеров машинного обучения и ученых-исследователей данных, который предоставляет удобное рабочее пространство с интегрированной средой разработки (IDE). Он основан на Amazon SageMaker Studio и предоставляет JupyterLab для Python и Posit Workbench для R. Такое предложение позволяет инженерам машинного обучения BMW выполнять анализ данных и машинное обучение, основанное на программировании, повышает производительность разработчиков, предоставляя функционал самообслуживания и автоматизацию инфраструктуры, и тесно интегрируется с централизованной IT-инфраструктурой BMW.

Сервис JuMa теперь доступен всем ученым-исследователям данных, инженерам машинного обучения и аналитикам данных в BMW Group. Сервис оптимизирует процессы разработки и производства машинного обучения (MLOps) в компании BMW, предоставляя экономически эффективную и масштабируемую среду разработки, способствующую более гармоничному сотрудничеству между командами по науке о данных и инжинирингу по всему миру. Это приводит к более быстрым экспериментам и более коротким циклам проверки идей. Более того, инфраструктура JuMa, основанная на AWS serverless и управляемых сервисах, помогает снизить операционные расходы для DevOps-команд и позволяет им сосредоточиться на развитии использования и ускорении инноваций в области искусственного интеллекта в Группе BMW.

Проблемы развития локальной платформы искусственного интеллекта

Перед внедрением сервиса JuMa в Группе BMW по всему миру команды использовали две локальные платформы, предоставляющие среды JupyterHub и RStudio. Эти платформы были слишком ограничены в отношении ЦПУ, ГПУ и памяти, чтобы позволить возможности масштабирования искусственного интеллекта в Группе BMW. Масштабирование этих платформ с помощью управления большим количеством локального оборудования, большего количества программных лицензий и платы за поддержку потребовало бы значительных вложений в начале и высоких усилий в отношении обслуживания. Кроме того, были доступны ограниченные возможности самообслуживания, требующие высоких операционных затрат для команд DevOps. Более того, использование этих платформ было несогласовано со стратегией Группы BMW, основанной на облачных технологиях. Например, команды, использующие эти платформы, не смогли легко перенести свои прототипы искусственного интеллекта и машинного обучения ко всему процессу промышленной эксплуатации решения, работающему на AWS. В отличие от этого, команды по науке о данных и аналитике уже использовали AWS непосредственно для экспериментов и должны были также заботиться о создании и обслуживании своей инфраструктуры AWS, обеспечивая соответствие внутренним политикам, местным законам и нормативным актам Группы BMW. Это включало ряд действий по настройке и управлению от заказа учетных записей AWS, ограничением доступа в интернет, использования разрешенных пакетов и поддержанию актуальности их образов Docker.

Обзор решения

JuMa – это полностью управляемый многосторонний сервис платформы искусственного интеллекта, отличающийся высокой безопасностью, построенный на AWS с использованием ядра SageMaker Studio. Основываясь на бессерверной и управляемой модели предоставления услуг AWS в качестве основных строительных блоков инфраструктуры, команда JuMa DevOps не нуждается в беспокойстве о заплатках серверов, обновлении хранилищ, или управлении другими компонентами инфраструктуры. Сервис автоматически обрабатывает все эти процессы, предоставляя мощную техническую платформу, которая в общем автоматически обновляется и готова к использованию.

Пользователи JuMa могут легко заказывать рабочее пространство через самообслуживание портала, чтобы создать безопасную и изолированную среду разработки и экспериментов для своих команд. После создания рабочего пространства JuMa пользователи могут запустить окружения JupyterLab или Posit в SageMaker Studio всего несколькими щелчками и немедленно приступить к разработке, используя инструменты и фреймворки, с которыми они наиболее знакомы. JuMa тесно интегрирован с рядом служб центральных ИТ-сервисов BMW, включая управление идентификацией и доступом, управление ролями и правами, хранилище данных BMW Cloud Hub (озеро данных BMW на AWS) и базы данных на месте. Последнее помогает командам искусственного интеллекта и машинного обучения без проблем получать доступ к необходимым данным, при условии, что они имеют на это разрешение, без необходимости создавать каналы передачи данных. Кроме того, блокноты могут быть интегрированы в корпоративные репозитории Git для совместной работы с использованием системы контроля версий.

Решение абстрагирует от всех технических сложностей, связанных с управлением учетной записи AWS, настройкой и настройкой для команд искусственного интеллекта и машинного обучения, позволяя им полностью сосредоточиться на инновациях в области искусственного интеллекта. Платформа гарантирует, что настройка рабочего пространства соответствует требованиям безопасности и соответствию BMW изначально.

Следующая диаграмма описывает общее представление архитектуры.

Путь пользователя

Члены команд BMW AI/ML могут заказать свое рабочее пространство JuMa, используя стандартный каталоговый сервис BMW. После утверждения руководителем линейного отдела, заказанное рабочее пространство JuMa полностью автоматически создается платформой. Процесс создания рабочего пространства включает следующие шаги (как указано на диаграмме архитектуры).

  1. Команда научных сотрудников заказывает новое рабочее пространство JuMa в каталоге BMW. JuMa автоматически создает новую учетную запись AWS для рабочего пространства. Это обеспечивает полную изоляцию между рабочими пространствами в соответствии со структурой учетных записей федеративной модели, упомянутой в Лучших практиках администрирования SageMaker Studio.
  2. JuMa настраивает рабочее пространство (которое является Sagemaker доменом), которое позволяет использовать только предопределенные функции Amazon SageMaker, необходимые для экспериментов и разработки, определенные пользовательские ядра и конфигурации жизненного цикла. Он также создает необходимые подсети и группы безопасности, которые обеспечивают безопасную работу блокнотов.
  3. После создания рабочих пространств авторизованные пользователи входят в портал JuMa и получают доступ к среде SageMaker Studio IDE в своем рабочем пространстве с помощью предварительно подписанного URL-адреса SageMaker. Пользователи могут выбрать между открытием частного пространства SageMaker Studio или общих пространств. Общие пространства способствуют сотрудничеству между разными членами команды, которые могут параллельно работать над одними и теми же блокнотами, тогда как частные пространства позволяют создать среду разработки для одиночных рабочих нагрузок.
  4. С помощью портала данных BMW пользователи могут запросить доступ к базам данных на месте или данным, хранящимся в облаке данных BMW, что делает его доступным в их рабочем пространстве для разработки и экспериментов, от подготовки и анализа данных до обучения и проверки моделей.

После создания и проверки модели искусственного интеллекта в JuMa команды по искусственному интеллекту могут использовать службу MLOPs платформы BMW AI для быстрого и без усилий развертывания в продакшн. Эта служба предоставляет пользователям инфраструктуру и конвейеры обработки ML высокой производительности на AWS с использованием SageMaker, которую можно настроить всего за несколько минут всего несколькими щелчками. Пользователям просто нужно разместить свою модель на предоставленной инфраструктуре и настроить конвейер в соответствии с требованиями своего конкретного случая использования. Таким образом, платформа искусственного интеллекта покрывает всю жизненный цикл искусственного интеллекта в BMW Group.

Особенности JuMa

Следуя лучшим практикам архитектуры на AWS, сервис JuMa был разработан и реализован в соответствии с Фреймворком архитектуры AWS Well-Architected. Архитектурные решения каждого из столпов Well-Architected подробно описаны в следующих разделах.

Безопасность и соответствие

Для обеспечения полной изоляции между арендаторами каждое рабочее пространство получает свою собственную учетную запись AWS, в которой авторизованные пользователи могут совместно работать над задачами аналитики, а также разрабатывать и экспериментировать с моделями искусственного интеллекта и машинного обучения. Портал JuMa сам по себе обеспечивает изоляцию во время выполнения с использованием политики основанной на изоляции с помощью AWS Identity and Access Management (IAM) и контекста пользователя JuMa. Дополнительную информацию о данной стратегии можно найти по ссылке Разделение политикой на время выполнения с помощью IAM.

Ученые-данные могут получать доступ только к своей области через сеть BMW посредством предварительно подписанных URL-адресов, создаваемых порталом. Прямой доступ к Интернету отключен в их области. Права доступа к их среде Sagemaker создаются с использование персоналов Amazon SageMaker Role Manager, чтобы обеспечить доступ с наименьшими привилегиями к требуемым для разработки AWS-сервисам, таким как SageMaker, Amazon Athena, Amazon Simple Storage Service (Amazon S3) и AWS Glue. Данная роль реализует элементы безопасности машинного обучения (такие как описанные в разделе Управление и контроль), включая обеспечение проведения обучения моделей машинного обучения либо в Amazon Virtual Private Cloud (Amazon VPC), либо без доступа к Интернету, а также разрешение использования только официальных проверенных и актуальных изображений Сагемейкера от JuMa.

Так как JuMa предназначена для разработки, экспериментов и прогнозного анализа, она реализует политики хранения данных, предусматривающие удаление данных после 30 дней. Чтобы иметь доступ к данным по необходимости и хранить их в течение длительного времени, JuMa плавно интегрируется с BMW Cloud Data Hub и локальными базами данных BMW.

Наконец, JuMa поддерживает несколько регионов, чтобы соответствовать особым местным юридическим условиям, которые, к примеру, требуют обработки данных на местах для гарантированности суверенитета данных BMW.

Высокая эксплуатационная эффективность

Как платформа, так и рабочие пространства JuMa реализованы с использованием AWS Serverless и управляемых сервисов. Использование этих сервисов помогает минимизировать усилия команды разработчиков BMW по обслуживанию и эксплуатации всего комплексного решения, стремясь создать сервис без необходимости в операционной деятельности. Как рабочее пространство, так и портал мониторятся с использованием журналов, метрик и тревог Amazon CloudWatch, чтобы проверять ключевые показатели производительности (KPI) и предупреждать команду платформы о любых проблемах. Кроме того, в системе трассировки запросов AWS X-Ray используется для отслеживания запросов по множеству компонентов и аннотирования журналов CloudWatch контекстом, связанным с рабочим пространством.

Все изменения в инфраструктуре JuMa управляются и реализуются с помощью автоматизации с использованием инфраструктуры в виде кода (IaC). Это помогает уменьшить ручные усилия и человеческие ошибки, обеспечить согласованность и гарантированность воспроизводимости и версионности изменений в обоих рабочих пространствах и платформах JuMa. В частности, все рабочие пространства создаются и обновляются с использованием процесса включения, построенного на базе AWS Step Functions, AWS CodeBuild и Terraform. Следовательно, для включения новых рабочих пространств в платформу JuMa не требуется ручной конфигурации.

Оптимизация затрат

Используя серверные службы AWS, JuMa обеспечивает масштабируемость по требованию, предварительно одобренные размеры экземпляров и модель оплаты по мере использования ресурсов во время разработки и экспериментов в соответствии с потребностями команд искусственного интеллекта и машинного обучения. Чтобы дополнительно оптимизировать затраты, платформа JuMa мониторит и определяет неиспользуемые ресурсы внутри SageMaker Studio и автоматически их отключает, чтобы предотвратить затраты на неиспользуемые ресурсы.

Устойчивость

JuMa заменяет две внутренние платформы BMW для аналитики и обработки глубокого обучения, которые потребляют значительное количество электричества и выделяют углекислый газ, даже когда не используются. Перенесение рабочих нагрузок по искусственному интеллекту и машинному обучению с внутренней инфраструктуры на AWS позволяет BMW снизить экологическое воздействие путем вывода из эксплуатации внутренних платформ.

Более того, механизм автоматического выключения неиспользуемых ресурсов, политики сохранения данных и отчеты об использовании рабочих пространств, реализованные в JuMa, помогают минимизировать окружающую среду при выполнении рабочих нагрузок по искусственному интеллекту и машинному обучению на AWS.

Эффективность работы

Используя SageMaker Studio, команды BMW получают преимущества от простой адаптации последних функций SageMaker, которые могут помочь ускорить эксперименты. Например, они могут использовать возможности Amazon SageMaker JumpStart, чтобы использовать последние предварительно обученные открытые модели. Кроме того, это помогает сократить усилия команды по искусственному интеллекту и машинному обучению при переходе от экспериментов к промышленной реализации решений, поскольку среда разработки предоставляет те же основные службы AWS, но ограничена возможностями разработки.

Надежность

Области SageMaker Studio развертываются в режиме только VPC для управления доступом в Интернет и разрешения доступа только к предназначенным службам AWS. Сеть развертывается в двух доступных зонах для защиты от единой точки отказа, обеспечивая большую отказоустойчивость и доступность платформы для пользователей.

Изменения в рабочих пространствах JuMa автоматически развертываются и тестируются в среде разработки и интеграции с использованием методов и CI/CD-пайплайнов, перед обновлением клиентских сред.

Наконец, данные, хранящиеся в Amazon Elastic File System (Amazon EFS) для областей SageMaker Studio сохраняются после удаления томов в целях резервного копирования.

Заключение

В этой статье мы описали, как BMW Group совместно с AWS ProServe разработала полностью управляемую платформу искусственного интеллекта на AWS с использованием SageMaker Studio и других безсерверных и управляемых служб AWS.

С помощью JuMa команды по искусственному интеллекту и машинному обучению в BMW могут раскрыть новое деловое значение, ускорив эксперименты и время выхода на рынок с помощью дисруптивных решений искусственного интеллекта. Более того, перенесение с внутренней платформы позволяет BMW сократить общие затраты и усилия по эксплуатации, а также повысить устойчивость и общую безопасность.

Чтобы узнать больше о выполнении ваших рабочих нагрузок по искусственному интеллекту и машинному обучению на AWS, посетите Amazon SageMaker Studio.