Повышение продуктивности разработчиков как Deloitte использует Amazon SageMaker Canvas для машинного обучения без кодирования/низкоуровневого кодирования

Deloitte использует Amazon SageMaker Canvas повышение продуктивности разработчиков в машинном обучении без кодирования

Быстрое создание и развертывание моделей машинного обучения (ML) становится все более важным в современном мире, ориентированном на данные. Однако создание моделей машинного обучения требует значительного времени, усилий и специализированных знаний. От сбора и очистки данных до инженерии признаков, построения, настройки и развертывания моделей ML проекты часто занимают месяцы для разработчиков. И опытных специалистов по обработке данных часто бывает трудно найти.

Вот где набор услуг Amazon Web Services (AWS) с низким и без кода для ML становится необходимым инструментом. С помощью нескольких кликов с использованием Amazon SageMaker Canvas вы можете воспользоваться возможностями ML, не нуждаясь в написании какого-либо кода.

В качестве стратегического системного интегратора с глубоким опытом работы с ML компания Deloitte эффективно использует инструменты AWS без кода и с низким кодом для создания и развертывания моделей ML для клиентов компании Deloitte и внутренних активов. Эти инструменты позволяют Deloitte разрабатывать ML-решения, не создавая модели и конвейеры кодирования. Это может помочь ускорить сроки поставки проекта и позволить Deloitte взяться за больше работы с клиентами.

Ниже приведены некоторые конкретные причины, по которым Deloitte использует эти инструменты:

  • Доступность для непрограммистов – Инструменты без кода открывают возможность создания моделей ML для непрограммистов. Члены команды, имеющие только предметные знания и небольшие навыки программирования, могут разрабатывать модели ML.
  • Быстрое внедрение новых технологий – Наличие и постоянное совершенствование моделей, готовых к использованию, и автоматическое создание моделей (AutoML) помогают убедиться в том, что пользователи постоянно используют передовые технологии.
  • Эффективная разработка с учетом затрат – Инструменты без кода помогают сократить затраты и время, необходимые для разработки моделей ML, что делает их более доступными для клиентов, что может помочь им получить более высокий возврат инвестиций.

Кроме того, эти инструменты предоставляют всеобъемлющее решение для более быстрых рабочих процессов, обеспечивая следующее:

  • Более быструю подготовку данных – SageMaker Canvas имеет более 300 встроенных преобразований и возможность использовать естественный язык, который может ускорить подготовку данных и сделать их готовыми для построения модели.
  • Более быструю разработку моделей – SageMaker Canvas предлагает готовые к использованию модели или технологию Amazon AutoML, которая позволяет вам создавать настраиваемые модели на основе предприятий данных всего несколькими кликами. Это помогает ускорить процесс по сравнению с созданием моделей с нуля с использованием кодировки.
  • Более простое развертывание – SageMaker Canvas позволяет развернуть готовые к производству модели на конечную точку Amazon SageMaker всего несколькими кликами и зарегистрировать их в реестре моделей Amazon SageMaker.

Vishveshwara Vasa, технологический директор Deloitte, говорит:

«Благодаря услугам AWS без кода, таким как SageMaker Canvas и SageMaker Data Wrangler, мы в Deloitte Consulting достигли новых эффективностей, улучшив скорость разработки и производительность развертывания на 30–40% в наших проектах для клиентов и внутренних проектах».

В этой статье мы демонстрируем мощность создания конечной модели ML без кода с использованием SageMaker Canvas, показывая, как создать модель классификации для прогнозирования, будет ли клиент несоблюдать условия кредита. Точное прогнозирование возврата кредита может помочь финансовой компании управлять рисками, устанавливать адекватные цены на кредиты, улучшать операции, предоставлять дополнительные услуги и получать конкурентное преимущество. Мы также показываем, как SageMaker Canvas может помочь вам быстро перейти от исходных данных к развернутой модели бинарной классификации для прогнозирования возврата кредита.

SageMaker Canvas предлагает всеобъемлющие возможности подготовки данных, работающие на базе Amazon SageMaker Data Wrangler в рабочей области SageMaker Canvas. Это позволяет вам пройти все фазы стандартного рабочего процесса ML, от подготовки данных до построения и развертывания моделей, на одной платформе.

Подготовка данных обычно является самым трудоемким этапом рабочего процесса ML. Чтобы сократить время, затрачиваемое на подготовку данных, SageMaker Canvas позволяет подготовить данные с использованием более 300 встроенных преобразований. Альтернативно, вы можете написать естественноязыковые запросы, такие как «удалить строки для столбца c, являющиеся выбросами», и получить фрагмент кода, необходимого для этого шага подготовки данных. Затем вы можете добавить это в свой рабочий процесс по подготовке данных всего несколькими кликами. Мы также показываем, как использовать это в этой статье.

Обзор решения

Следующая диаграмма описывает архитектуру модели классификации дефолтов по займам, используя инструменты SageMaker с низким и отсутствующим кодом.

Начиная с набора данных, который содержит сведения о данных по дефолтам по займам в Amazon Simple Storage Service (Amazon S3), мы используем SageMaker Canvas, чтобы получить представление о данных. Затем мы выполняем инженерию признаков, чтобы применить преобразования, такие как кодирование категориальных признаков, удаление ненужных признаков и другие. Затем мы сохраняем очищенные данные в Amazon S3. Мы используем очищенный набор данных для создания модели классификации для прогнозирования дефолтов по займам. Затем у нас есть модель, готовая к внедрению.

Предварительные требования

Проверьте, что выполнены следующие предварительные требования и что вы включили опцию Canvas Ready-to-use models при настройке домена SageMaker. Если вы уже настроили свой домен, измените настройки своего домена и перейдите в раздел Настройки холста (Canvas settings), чтобы включить опцию Enable Canvas Ready-to-use models. Кроме того, настройте и создайте приложение SageMaker Canvas, а затем запросите и включите доступ к модели Anthropic Claude на Amazon Bedrock.

Набор данных

Мы используем общедоступный набор данных с сайта kaggle, который содержит информацию о финансовых займах. Каждая строка в наборе данных представляет собой отдельный займ, а столбцы предоставляют сведения о каждой транзакции. Загрузите этот набор данных и сохраните его в выбранной вами S3-ведре. В таблице ниже перечислены поля в наборе данных.

Название столбца Тип данных Описание
Person_age Целое число Возраст человека, взявшего займ
Person_income Целое число Доход заемщика
Person_home_ownership Строка Статус владения жильем (собственность или аренда)
Person_emp_length Десятичное число Количество лет работы
Loan_intent Строка Цель займа (личная, медицинская, образовательная и т. д.)
Loan_grade Строка Грейд займа (A–E)
Loan_int_rate Десятичное число Процентная ставка
Loan_amnt Целое число Общая сумма займа
Loan_status Целое число Целевая переменная (произошел ли дефолт)
Loan_percent_income Десятичное число Соотношение суммы займа к проценту дохода
Cb_person_default_on_file Целое число Предыдущие дефолты (если есть)
Cb_person_credit_history_length Строка Длина кредитной истории

Упрощение подготовки данных с помощью SageMaker Canvas

Подготовка данных может занимать до 80% усилий в проектах машинного обучения. Правильная подготовка данных приводит к повышению производительности модели и более точным прогнозам. SageMaker Canvas позволяет взаимодействовать с данными, исследовать, преобразовывать и готовить их без написания SQL или Python кода.

Выполните следующие шаги для подготовки данных:

  1. На консоли SageMaker Canvas выберите Подготовка данных в боковой панели навигации.
  2. На меню Создать выберите Документ.
  3. В поле Имя набора данных введите имя для вашего набора данных.
  4. Выберите Создать.
  5. Выберите Amazon S3 в качестве источника данных и подключите его к набору данных.
  6. После загрузки набора данных создайте поток данных, используя этот набор данных.
  7. Переключитесь на вкладку анализа и создайте Отчет о качестве данных и исследованиях.

Это рекомендуемый шаг для анализа качества входного набора данных. Результатом этого отчета являются мгновенные умные выводы, полученные с помощью машинного обучения, такие как смещение данных, дубликаты в данных, отсутствующие значения и многое другое. На следующем снимке экрана показан пример созданного отчета для набора данных по займам.

Генерируя эти выводы вместо вас, SageMaker Canvas предоставляет вам набор проблем, требующих устранения на этапе подготовки данных. Чтобы выбрать две главные проблемы, определенные SageMaker Canvas, вам необходимо закодировать категориальные признаки и удалить повторяющиеся строки, чтобы ваша модель имела высокое качество. Вы можете сделать это и многое другое в визуальном рабочем процессе с помощью SageMaker Canvas.

  1. Сначала преобразуйте loan_intent, loan_grade и person_home_ownership в индикаторные переменные
  2. Вы можете удалить столбец cb_person_cred_history_length, потому что этот столбец имеет наименьшую предсказательную силу, как показано в отчете о качестве данных и исследованиях. Недавно SageMaker Canvas добавилу возможность Чат с данными. Эта функция использует возможности основных моделей для интерпретации естественноязычных запросов и генерации кода на Python для применения преобразований признаков. Эта функция работает на основе Amazon Bedrock и может быть настроена таким образом, чтобы выполняться полностью в вашей VPC, чтобы данные никогда не покидали вашу среду.
  3. Чтобы использовать эту функцию для удаления повторяющихся строк, выберите плюс рядом с преобразованием Удалить столбец, затем выберите Чат с данными.
  4. Введите ваш запрос на естественном языке (например, “Удалить повторяющиеся строки из набора данных”).
  5. Ознакомьтесь с сгенерированным преобразованием и выберите Добавить к шагам, чтобы добавить преобразование в поток.
  6. Наконец, экспортируйте результаты этих преобразований в Amazon S3 или при необходимости в хранилище функций Amazon SageMaker для использования этих функций в нескольких проектах.

Вы также можете добавить еще один шаг для создания назначения Amazon S3 для набора данных, чтобы масштабировать рабочий процесс для большого набора данных. На следующей диаграмме показана потоковая обработка данных SageMaker Canvas после добавления визуальных преобразований.

Вы завершили весь процесс обработки данных и инженерии признаков с использованием визуальных рабочих процессов в SageMaker Canvas. Это помогает сократить время, которое инженер данных тратит на очистку и подготовку данных к разработке модели, с недель до дней. Следующий шаг – создание модели ML.

Создание модели с помощью SageMaker Canvas

Amazon SageMaker Canvas предоставляет рабочий процесс без кода для создания, анализа, тестирования и развертывания этой бинарной классификационной модели. Выполните следующие шаги:

  1. Создайте набор данных в SageMaker Canvas.
  2. Укажите либо местоположение S3, которое использовалось для экспорта данных, либо местоположение S3, которое является назначением задания SageMaker Canvas. Теперь вы готовы создать модель.
  3. Выберите Модели в панели навигации и выберите Новая модель.
  4. Назовите модель и выберите Предсказательный анализ в качестве типа модели.
  5. Выберите набор данных, созданный на предыдущем шаге. Следующим шагом является настройка типа модели.
  6. Выберите целевой столбец, и тип модели автоматически установится как предсказание на 2 категории.
  7. Выберите тип сборки, Стандартная сборка или Быстрая сборка. SageMaker Canvas отображает ожидаемое время сборки сразу после начала создания модели. Стандартная сборка обычно занимает от 2 до 4 часов; вы можете использовать опцию Быстрой сборки для небольших наборов данных, которая занимает только от 2 до 15 минут. Для этого конкретного набора данных сборка модели должна занять около 45 минут. SageMaker Canvas информирует вас о прогрессе процесса сборки.
  8. После построения модели вы можете оценить ее производительность. SageMaker Canvas предоставляет различные метрики, такие как точность, точность и оценка F1, в зависимости от типа модели. На следующем снимке экрана показана точность и несколько других продвинутых метрик для этой бинарной классификационной модели.
  9. Следующий шаг – сделать тестовые предсказания. SageMaker Canvas позволяет делать пакетные предсказания на нескольких входах или одно предсказание, чтобы быстро проверить качество модели. На следующем снимке экрана показан пример вывода.
  10. Последний шаг – развернуть обученную модель. SageMaker Canvas развертывает модель на точках доступа SageMaker, и у вас теперь есть готовая к использованию производственная модель. На следующем снимке экрана показан развернутый точка доступа.

После развертывания модели вы можете вызывать ее через SDK AWS или AWS Command Line Interface (CLI) или делать вызовы API к любому приложению по вашему выбору, чтобы уверенно предсказывать риск потенциального заемщика. Для получения дополнительной информации о тестировании модели обратитесь к Вызову конечных точек в реальном времени.

Очистка

Для избежания дополнительных расходов выйдите из SageMaker Canvas или удалите домен SageMaker, созданный ранее. Также удалите конечную точку модели SageMaker и удалите загруженный набор данных с Amazon S3.

Заключение

Безкодовый ML ускоряет разработку, упрощает развертывание, не требует навыков программирования, повышает стандартизацию и снижает затраты. Эти преимущества сделали безкодовый ML привлекательным для Deloitte для улучшения предложений услуг по ML, и они сократили время создания своих моделей ML на 30–40%.

Deloitte является стратегическим глобальным системным интегратором с более 17 000 сертифицированными специалистами AWS во всем мире. Компания продолжает повышать планку через участие в программе AWS Competency со 25 компетенциями, включая Machine Learning. Свяжитесь с Deloitte, чтобы начать использовать решения AWS без кодирования и с низким кодом в вашей компании.