Используйте Amazon DocumentDB для создания решений машинного обучения без кода в среде Amazon SageMaker Canvas.
Создайте решения машинного обучения без кода с помощью Amazon DocumentDB в среде Amazon SageMaker Canvas
Мы с радостью объявляем о запуске интеграции Amazon DocumentDB (с совместимостью с MongoDB) с Amazon SageMaker Canvas, позволяющей клиентам Amazon DocumentDB создавать и использовать решения на основе генеративного искусственного интеллекта (AI) и машинного обучения (ML) без написания кода. Amazon DocumentDB – это полностью управляемая база данных с нативной поддержкой JSON-документов, которая позволяет легко и экономично обрабатывать критические задачи с документами практически любого масштаба без управления инфраструктурой. Amazon SageMaker Canvas – это рабочее пространство ML без кода, предлагающее готовые модели, включая основные модели, а также возможность подготовки данных и создания и развертывания пользовательских моделей.
В этой статье мы рассмотрим, как получить данные, хранящиеся в Amazon DocumentDB, в SageMaker Canvas и использовать эти данные для создания моделей машинного обучения для прогностической аналитики. Без создания и поддержания конвейеров обработки данных вы сможете применять модели машинного обучения к вашим неструктурированным данным, хранящимся в Amazon DocumentDB.
Обзор решения
Допустим, вы являетесь бизнес-аналитиком компании по доставке еды. Ваше мобильное приложение хранит информацию о ресторанах в Amazon DocumentDB из-за его масштабируемости и возможностей гибкой схемы. Вы хотите получить представление о данных и создать модель машинного обучения для прогнозирования рейтинга новых ресторанов, но столкнулись с трудностями в анализе неструктурированных данных. Вам мешает отсутствие опыта в области машинного обучения для создания качественных моделей и генерации прогнозов.
Эта новая интеграция решает эти проблемы, позволяя легко передавать данные из Amazon DocumentDB в SageMaker Canvas и сразу начинать подготавливать и анализировать данные для машинного обучения. Кроме того, SageMaker Canvas устраняет зависимость от специалистов по машинному обучению для создания высококачественных моделей и генерации прогнозов.
- «За пределами Captchas исследование современных достижений искусственного интеллекта в борьбе с ботами»
- Эта статья AI раскрывает последние научные исследования Amazon по машинному обучению на тему ошибок в больших моделях языка
- 12 лучших моделей генеративного искусственного интеллекта для изучения в 2024 году
Мы продемонстрируем, как использовать данные из Amazon DocumentDB для создания моделей машинного обучения в SageMaker Canvas в следующих шагах:
- Создайте подключение к Amazon DocumentDB в SageMaker Canvas.
- Анализ данных с использованием генеративного искусственного интеллекта.
- Подготовка данных для машинного обучения.
- Создание модели и генерация прогнозов.
Предварительные требования
Для реализации этого решения выполните следующие предварительные условия:
- Иметь доступ к администрированию облачного сервиса AWS с управлением идентификацией и доступом (Identity and Access Management, IAM) пользователем с правами, необходимыми для выполнения интеграции.
- Завершите настройку окружения с использованием AWS CloudFormation через один из следующих вариантов:
- Развернуть шаблон CloudFormation в новой виртуальной частной сети (VPC) – В этом варианте создается новая среда AWS, включающая VPC, частные подсети, группы безопасности, роли выполнения IAM, Amazon Cloud9, необходимые конечные точки VPC и домен SageMaker. Затем Amazon DocumentDB развертывается в этой новой VPC. Скачайте шаблон или быстро разверните стек CloudFormation, выбрав Запуск стека:
- Развертывание шаблона CloudFormation в существующей VPC – В этом варианте создаются требуемые конечные точки VPC, роли выполнения IAM и домен SageMaker в существующей VPC с частными подсетями. Скачайте шаблон или быстро разверните стек CloudFormation, выбрав Запуск стека:
Обратите внимание, что при создании нового домена SageMaker вы должны настроить домен так, чтобы он находился в частной VPC без доступа в Интернет, чтобы иметь возможность добавить коннектор в Amazon DocumentDB. Чтобы узнать больше, см. Настройка Amazon SageMaker Canvas в VPC без доступа в Интернет.
- Пройдите по уроку, чтобы загрузить образцы данных ресторанов в Amazon DocumentDB.
- Добавьте доступ к Amazon Bedrock и Anthropic Claude model внутри него. Дополнительную информацию см. в разделе Добавление доступа к модели.
Создание соединителя Amazon DocumentDB в SageMaker Canvas
После создания домена SageMaker выполните следующие действия:
- На консоли Amazon DocumentDB выберите Машинное обучение без кодирования в панели навигации.
- В разделе Выбрать домен и профиль выберите ваш домен SageMaker и профиль пользователя.
- Нажмите Запустить Canvas, чтобы запустить SageMaker Canvas в новой вкладке.
Когда SageMaker Canvas закончит загрузку, вы попадете на вкладку Потоки данных.
- Выберите Создать, чтобы создать новый поток данных.
- Введите имя для вашего потока данных и выберите Создать.
- Добавьте новое соединение с Amazon DocumentDB, выбрав Импорт данных, затем выберите Табличное для Типа набора данных.
- На странице Импорт данных, для Источника данных выберите DocumentDB и Добавить соединение.
- Введите имя соединения, например “demo”, и выберите нужный вам кластер Amazon DocumentDB.
Обратите внимание, что SageMaker Canvas автоматически предзаполняет выпадающее меню кластерами в той же VPC, что и ваш домен SageMaker.
- Введите имя пользователя, пароль и имя базы данных.
- Наконец, выберите предпочтение чтения.
Для защиты производительности основных экземпляров SageMaker Canvas по умолчанию использует Вторичный режим, что означает, что он будет читать только с вторичных экземпляров. Когда предпочтение чтения задано как Предпочтительно вторичный, SageMaker Canvas будет читать доступные вторичные экземпляры, но будет читать с основного экземпляра, если вторичный экземпляр недоступен. Дополнительную информацию о настройке соединения Amazon DocumentDB см. в разделе Подключение к базе данных, хранящейся на AWS.
- Выберите Добавить соединение.
Если соединение успешно установлено, вы увидите коллекции вашей базы данных Amazon DocumentDB, отображенные в виде таблиц.
- Перетащите выбранную таблицу на пустой холст. В этом сообщении мы добавляем данные нашего ресторана.
Отображаются первые 100 строк в качестве предварительного просмотра.
- Чтобы начать анализировать и подготавливать данные, выберите Импортировать данные.
- Введите имя набора данных и выберите Импортировать данные.
Анализ данных с использованием генеративного искусственного интеллекта
Далее мы хотим получить некоторые информации о наших данных и искать паттерны. SageMaker Canvas предоставляет естественный языковой интерфейс для анализа и подготовки данных. Когда загружается вкладка Данные, вы можете начать общаться с вашими данными с помощью следующих шагов:
- Выберите Чат для подготовки данных.
- Получите информацию о ваших данных, задавая вопросы, как показано на следующих скриншотах.
Чтобы узнать больше о том, как использовать естественный язык для исследования и подготовки данных, см. Использование естественного языка для исследования и подготовки данных с новой возможностью SageMaker Canvas.
Давайте получим более глубокое представление о качестве наших данных с помощью отчета SageMaker Canvas Data Quality and Insights, который автоматически оценивает качество данных и обнаруживает аномалии.
- На вкладке Анализы выберите Отчет о качестве данных и идеи.
- Выберите
rating
в качестве целевого столбца и Регрессия в качестве типа задачи, затем выберите Создать.
Это позволит имитировать обучение модели и предоставит инсайты о том, как можно улучшить данные для машинного обучения. Полный отчет будет сгенерирован в течение нескольких минут.
Наш отчет показывает, что 2,47% строк в нашей целевой переменной имеют пропущенные значения – мы исправим это на следующем шаге. Кроме того, анализ показывает, что признаки address line 2
, name
и type_of_food
имеют наибольшую предсказательную силу в наших данных. Это указывает на то, что базовая информация о ресторане, такая как местоположение и кухня, может оказывать значительное влияние на рейтинги.
Подготовка данных для машинного обучения
SageMaker Canvas предлагает более 300 встроенных преобразований для подготовки ваших импортированных данных. Для получения дополнительной информации о функциях преобразования SageMaker Canvas обратитесь к Подготовка данных с помощью продвинутых преобразований. Давайте добавим некоторые преобразования, чтобы подготовить наши данные к обучению модели машинного обучения.
- Вернитесь на страницу Поток данных, выбрав название вашего потока данных в верхней части страницы.
- Выберите знак плюс рядом с Типы данных и выберите Добавить преобразование.
- Выберите Добавить шаг.
- Переименуем столбец
address line 2
вcities
.- Выберите Управление столбцами.
- Выберите Переименовать столбец для Преобразования.
- Выберите
address line 2
для Исходного столбца, введитеcities
для Нового имени и выберите Добавить.
- Кроме того, давайте удалим некоторые ненужные столбцы.
- Добавьте новое преобразование.
- Для Преобразования выберите Удалить столбец.
- Для Столбцов, которые нужно удалить выберите
URL
иrestaurant_id
. - Выберите Добавить.
- Наш столбец
rating
содержит пропущенные значения, поэтому давайте заполним эти строки средним значением этого столбца.- Добавьте новое преобразование.
- Для Преобразования выберите Заполнить значения.
- Для Типа столбца выберите Числовой.Создание модели и генерация прогнозов
Теперь, когда мы преобразовали наши данные, давайте обучим числовую модель машинного обучения для прогнозирования рейтингов ресторанов.
- Выберите Создать модель.
- Для Название набора данных введите имя для экспорта набора данных.
- Выберите Экспортировать и дождитесь экспорта преобразованных данных.
- Выберите ссылку Создать модель в нижнем левом углу страницы.
Вы также можете выбрать набор данных из функции Data Wrangler слева на странице.
- Введите имя модели.
- Выберите Предварительный анализ, затем выберите Создать.
- Выберите
rating_avg_filled
в качестве целевого столбца.
SageMaker Canvas автоматически выбирает подходящий тип модели.
- Выберите Просмотреть модель, чтобы убедиться, что нет проблем с качеством данных.
- Выберите Быстрая сборка, чтобы построить модель.
Создание модели займет примерно 2-15 минут.
После завершения обучения модели можно просмотреть ее статус. Наша модель имеет RSME 0.422, что означает, что модель часто предсказывает рейтинг ресторана с точностью до +/- 0.422 от фактического значения, что является хорошим приближением для шкалы рейтинга от 1 до 6.
- Наконец, вы можете сгенерировать примеры прогнозов, перейдя на вкладку Предсказание.
Очистка
Чтобы избежать дальнейших расходов, удалите созданные ресурсы, следуя инструкциям в этом сообщении. SageMaker Canvas выставит вам счет за время сеанса, и мы рекомендуем выходить из SageMaker Canvas, когда вы не пользуетесь им. Подробнее см. в разделе Выход из Amazon SageMaker Canvas.
Заключение
В данной статье мы обсудили, как использовать SageMaker Canvas для генеративного и машинного обучения с данными, хранящимися в Amazon DocumentDB. В нашем примере мы показали, как аналитик может быстро создать качественную модель машинного обучения с использованием набора данных о ресторанах.
Мы показали шаги реализации решения, от импорта данных из Amazon DocumentDB до создания модели машинного обучения в SageMaker Canvas. Весь процесс был завершен с помощью визуального интерфейса без написания ни одной строки кода.
Для начала вашего пути в машинном обучении с низким уровнем кодирования смотрите Amazon SageMaker Canvas.