Используйте машинное обучение без написания ни одной строки кода с помощью Amazon SageMaker Canvas

Максимально упростите использование машинного обучения с помощью Amazon SageMaker Canvas без написания кода

В недавнем прошлом использование машинного обучения (ML) для предсказаний, особенно для данных в виде текста и изображений, требовало обширных знаний ML для создания и настройки моделей глубокого обучения. Сегодня ML стал более доступным для любого пользователя, который хочет использовать ML-модели для создания бизнес-ценности. С помощью Amazon SageMaker Canvas вы можете создавать предсказания для различных типов данных, не ограничиваясь только табличными или временными рядами, не писать ни одной строки кода. Эти возможности включают предварительно обученные модели для изображений, текста и документов.

В этом посте мы рассмотрим, как вы можете использовать предварительно обученные модели для получения предсказаний для поддерживаемых типов данных, отличных от табличных данных.

Текстовые данные

SageMaker Canvas предоставляет визуальную среду без кода для создания, обучения и развёртывания моделей машинного обучения. Для обработки естественного языка (NLP) SageMaker Canvas без проблем интегрируется с Amazon Comprehend, что позволяет выполнять основные возможности NLP, такие как обнаружение языка, распознавание сущностей, анализ тональности, моделирование темы и многое другое. Интеграция позволяет обойтись без необходимости написания кода или инженерии данных для использования мощных моделей NLP Amazon Comprehend. Вам просто нужно предоставить ваше текстовые данные и выбрать из четырех часто используемых возможностей: анализ тональности, обнаружение языка, извлечение сущностей и обнаружение персональной информации. Для каждого сценария вы можете использовать пользовательский интерфейс для тестирования и использования пакетного прогнозирования для выбора данных, хранящихся вAmazon Simple Storage Service (Amazon S3).

Анализ текстовых данных на SageMaker Canvas

Анализ тональности

С помощью анализа тональности SageMaker Canvas вы можете проанализировать тональность входного текста. Он может определить, является ли общий настрой позитивным, негативным, смешанным или нейтральным, как показано на следующем скриншоте. Это полезно, например, при анализе отзывов о продукте. Например, текст “Я люблю этот продукт, он потрясающий!” будет классифицироваться SageMaker Canvas как имеющий положительную тональность, в то время как “Этот продукт ужасен, я жалею, что купил его” будет помечен как негативная тональность.

Анализ тональности на SageMaker Canvas

Извлечение сущностей

SageMaker Canvas может анализировать текст и автоматически обнаруживать упомянутые в нем сущности. Когда документ отправляется в SageMaker Canvas для анализа, он определит людей, организации, места, даты, количество и другие сущности в тексте. Эта возможность извлечения сущностей позволяет быстро получить информацию о ключевых людях, местах и деталях, обсуждаемых в документах. Для списка поддерживаемых сущностей см. Entities.

Извлечение сущностей на SageMaker Canvas

Обнаружение языка

SageMaker Canvas также может определить основной язык текста с помощью Amazon Comprehend. Он анализирует текст для определения основного языка и предоставляет оценочные баллы для обнаруженного основного языка, но не указывает процентное соотношение для многоязычных документов. Для лучших результатов с длинными документами на нескольких языках разбейте текст на части и объедините результаты, чтобы оценить языковое соотношение. Это работает лучше всего с текстом, содержащим как минимум 20 символов.

Определение языка в SageMaker Canvas

Обнаружение персональной информации

Вы также можете защитить конфиденциальные данные, используя обнаружение персональной информации с помощью SageMaker Canvas. Он может анализировать текстовые документы для автоматического обнаружения личных идентифицирующих данных (PII), позволяя вам найти конфиденциальные данные, такие как имена, адреса, даты рождения, номера телефонов, адреса электронной почты и многое другое. Он анализирует документы размером до 100 КБ и предоставляет оценку уверенности для каждой обнаруженной сущности, чтобы вы могли просмотреть и выборочно удалять наиболее конфиденциальную информацию. Для списка обнаруженных сущностей см. Обнаружение сущностей PII.

Обнаружение PII в SageMaker Canvas

Изображения

SageMaker Canvas предоставляет визуальный интерфейс без кодирования, который позволяет использовать возможности компьютерного зрения, интегрируясь с Amazon Rekognition для анализа изображений. Например, вы можете загрузить набор изображений, использовать Amazon Rekognition для обнаружения объектов и сцен, а также для обнаружения текста, чтобы решить широкий спектр задач. Визуальный интерфейс и интеграция с Amazon Rekognition позволяют не программистам использовать передовые методики компьютерного зрения.

Анализ данных об изображениях на SageMaker Canvas

Обнаружение объектов на изображениях

SageMaker Canvas использует Amazon Rekognition для обнаружения меток (объектов) на изображении. Вы можете загрузить изображение из пользовательского интерфейса SageMaker Canvas или использовать вкладку Пакетный прогноз, чтобы выбрать изображения, сохраненные в бакете S3. Как показано в следующем примере, он может извлекать объекты на изображении, такие как часовая башня, автобус, здания и многое другое. Вы можете использовать интерфейс для поиска по результатам предсказаний и их сортировки.

Обнаружение объектов на изображениях в SageMaker Canvas

Обнаружение текста на изображениях

Извлечение текста из изображений – очень распространенная задача. Теперь с помощью SageMaker Canvas вы можете выполнять эту задачу легко и без использования кода. Текст извлекается в виде отдельных строк, как показано на следующем снимке экрана. Короткие фразы на изображении классифицируются вместе и опознаются как фраза.

Обнаружение текста на изображениях в SageMaker Canvas

Вы можете выполнять массовое прогнозирование, загружая набор изображений, извлекая все изображения в одной партии и загружая результаты в виде CSV-файла. Это решение полезно, когда вам нужно извлечь и обнаружить текст на изображениях.

Данные документа

SageMaker Canvas предлагает множество готовых решений, которые решают ваши повседневные потребности в понимании документов. Эти решения работают на основе Amazon Textract. Чтобы просмотреть все доступные варианты для документов, выберите Готовые модели в левой панели навигации и отфильтруйте по Документы, как показано на следующем скриншоте.

Анализ данных документа на SageMaker Canvas

Анализ документа

Анализ документа анализирует документы и формы на наличие связей между обнаруженным текстом. Операции возвращают четыре категории извлечения из документа: простой текст, формы, таблицы и подписи. Возможность понимания структуры документа предоставляет дополнительную гибкость в типе данных, которые вы хотите извлечь из документов. Ниже приведен пример того, как выглядит обнаружение таблицы.

Анализ документа на SageMaker Canvas

Это решение способно понимать макеты сложных документов, что полезно, когда вам нужно извлечь определенную информацию из ваших документов.

Анализ удостоверений личности

Это решение предназначено для анализа документов, таких как удостоверения личности, водительские лицензии или другие аналогичные формы идентификации. Для каждого документа удостоверения личности будут возвращены такие сведения, как отчество, округ и место рождения, а также их индивидуальный показатель точности, как показано на следующем скриншоте.

Анализ удостоверений личности на SageMaker Canvas

Есть возможность выполнить пакетное предсказание, при котором можно массово загружать наборы документов удостоверений и обрабатывать их как пакетную задачу. Это предоставляет быстрый и безпроблемный способ преобразовать детали документа удостоверения в пары ключ-значение, которые могут быть использованы для последующих процессов, таких как анализ данных.

Анализ расходов

Анализ расходов предназначен для анализа документов о расходах, таких как счета и чеки. Ниже приведен пример того, как выглядит извлеченная информация.

Анализ расходов на SageMaker Canvas

Результаты возвращаются как сводные поля и строки товарных позиций. Сводные поля содержат ключ-значение, извлеченные из документа и содержат такие ключи, как Общая сумма, Срок платежа и Налог. Строки товарных позиций относятся к данным, которые структурированы в виде таблицы в документе. Это полезно для извлечения информации из документа при сохранении его макета.

Вопросы к документу

Вопросы к документу предназначены для того, чтобы задавать вопросы о ваших документах. Это отличное решение для использования, когда у вас есть многостраничные документы и вы хотите извлечь очень конкретные ответы из ваших документов. Приведен пример типовых вопросов, которые можно задавать, и того, как выглядят извлеченные ответы.

Вопросы к документу на SageMaker Canvas

Решение предоставляет простой интерфейс для взаимодействия с вашими документами. Это полезно, когда вам нужно получить конкретные детали из больших документов.

Заключение

SageMaker Canvas предоставляет среду без кода для использования машинного обучения с легкостью с различными типами данных, такими как текст, изображения и документы. Визуальный интерфейс и интеграция с сервисами AWS, такими как Amazon Comprehend, Amazon Rekognition и Amazon Textract, устраняют необходимость в кодировании и обработке данных. Вы можете анализировать текст на настроение, сущности, языки и PII. Для изображений обнаружение объектов и текста обеспечивает использование компьютерного зрения. Наконец, анализ документов может извлекать текст с сохранением его структуры для последующей обработки. Готовые решения в SageMaker Canvas позволяют вам использовать продвинутые методы машинного обучения для получения информации из структурированных и неструктурированных данных. Если вам интересны безкодовые инструменты с готовыми моделями машинного обучения, попробуйте SageMaker Canvas уже сегодня. Дополнительную информацию вы найдете здесь: Начало работы с использованием Amazon SageMaker Canvas.