Используйте машинное обучение без кода для получения информации из отзывов о продуктах с использованием анализа настроений и текстовых моделей Amazon SageMaker Canvas.

Как использовать машинное обучение без кода для анализа настроений и текстовых моделей отзывов о продуктах с помощью Amazon SageMaker Canvas.

Согласно Gartner, 85% покупателей программного обеспечения доверяют онлайн-отзывам так же, как личным рекомендациям. Клиенты оставляют отзывы и рецензии о продуктах, которые они приобрели через множество каналов, включая веб-сайты с отзывами, сайты продавцов, продажи по телефону, социальные медиа и многие другие. Проблема с растущим объемом отзывов клиентов по разным каналам заключается в том, что для компаний может быть сложно обрабатывать и получать полезные данные с помощью традиционных методов. Машинное обучение (МО) может анализировать большие объемы отзывов о продуктах и выявлять паттерны, настроения и обсуждаемые темы. Благодаря этой информации компании могут лучше понять предпочтения клиентов, их проблемы и уровень удовлетворенности. Они также могут использовать эту информацию для улучшения продуктов и услуг, выявления трендов и принятия стратегических мер, способствующих росту бизнеса. Однако реализация МО может быть сложной задачей для компаний, у которых нет ресурсов, таких как специалисты по МО, ученые-исследователи данных или разработчики искусственного интеллекта (ИИ). С использованием новых функций Amazon SageMaker Canvas аналитики бизнеса могут теперь использовать МО для получения информации из отзывов о продуктах.

SageMaker Canvas разработан для функциональных потребностей аналитиков бизнеса, чтобы использовать AWS без кода ML для ад-хок анализа табличных данных. SageMaker Canvas – это визуальный сервис с точным указанием, позволяющий аналитикам бизнеса генерировать точные прогнозы на основе МО без написания ни одной строки кода или необходимости в знаниях МО. Вы можете использовать модели для интерактивного прогнозирования и сценариев пакетной оценки данных из различных источников. SageMaker Canvas предлагает готовые управляемые модели ИИ и настраиваемые модели-решения. Для общих случаев использования МО вы можете использовать готовую модель ИИ для получения прогнозов с ваших данных без предварительного обучения модели. Для случаев использования МО, специфичных для вашей отраслевой сферы, вы можете обучать модель МО с вашими собственными данными для настраиваемых прогнозов.

В этом посте мы демонстрируем, как использовать готовую модель анализа настроений и настраиваемую модель анализа текста для получения информации из отзывов о продуктах. В этом случае у нас есть набор синтезированных отзывов о продуктах, которые мы хотим проанализировать на настроения и классифицировать отзывы по типу продукта, чтобы упростить обнаружение паттернов и трендов, которые могут помочь заинтересованным сторонам в бизнесе принимать лучшие информированные решения. Сначала мы описываем шаги для определения настроений отзывов с помощью готовой модели анализа настроений. Затем мы расскажем вам о процессе обучения модели анализа текста для классификации отзывов по типу продукта. Далее мы объясним, как проверить работу обученной модели. Наконец, мы расскажем, как использовать обученную модель для предсказаний.

Анализ настроений – это модель, готовая для обработки текста с помощью обработки естественного языка (NLP). Анализ настроений может быть выполнен для отдельных строк текста или в пакетном режиме прогнозирования. Предсказанные настроения для каждой строки текста могут быть положительными, отрицательными, смешанными или нейтральными.

Анализ текста позволяет классифицировать текст по двум или более категориям с использованием настраиваемых моделей. В нашем случае мы хотим классифицировать отзывы о продуктах по типу продукта. Для обучения модели анализа текста необходимо предоставить набор данных, состоящий из текста и соответствующих категорий в формате CSV. Для модели требуется не менее двух категорий и 125 строк текста на каждую категорию. После обучения модели вы можете проверить ее работу и повторить обучение, если это необходимо, перед использованием ее для предсказаний.

Предварительные требования

Выполните следующие предварительные требования:

  1. Иметь аккаунт AWS.
  2. Настроить SageMaker Canvas.
  3. Загрузить образцы наборов отзывов о продуктах:
    • sample_product_reviews.csv – Содержит 2000 синтезированных отзывов о продуктах и используется для анализа настроений и предсказаний анализа текста.
    • sample_product_reviews_training.csv – Содержит 600 синтезированных отзывов о продуктах и три категории продуктов, используется для обучения модели анализа текста.

Анализ настроений

Сначала вы используете анализ тональности, чтобы определить настроения отзывов о продукте, выполнив следующие шаги.

  1. В консоли SageMaker щелкните Canvas в панели навигации, затем щелкните Open Canvas, чтобы открыть приложение SageMaker Canvas.
  2. Щелкните Ready-to-use models в панели навигации, затем щелкните Sentiment analysis.
  3. Щелкните Batch prediction, затем щелкните Create dataset.
  4. Укажите Dataset name и щелкните Create.
  5. Щелкните Select files from your computer, чтобы импортировать набор данных sample_product_reviews.csv.
  6. Щелкните Create dataset и просмотрите данные. Первый столбец содержит отзывы и используется для анализа тональности. Второй столбец содержит идентификатор отзыва и используется только для справки.
  7. Щелкните Create dataset, чтобы завершить процесс загрузки данных.
  8. В представлении Select dataset for predictions выберите sample_product_reviews.csv, а затем щелкните Generate predictions.
  9. После завершения пакетного прогнозирования нажмите View, чтобы просмотреть прогнозы.
Sentiment Analysis Steps

Столбцы Sentiment и Confidence предоставляют тональность и уверенность в соответствии. Уверенность – это статистическое значение в диапазоне от 0 до 100%, которое показывает вероятность правильного предсказания тональности.

  1. Щелкните Download CSV, чтобы загрузить результаты на ваш компьютер.

Анализ текста

В этом разделе мы рассмотрим шаги для выполнения анализа текста с использованием пользовательской модели: импорт данных, обучение модели и предсказания.

Импорт данных

Сначала импортируйте тренировочный набор данных. Выполните следующие шаги:

  1. На странице Ready-to-use models щелкните Create a custom model
  2. Для Model name введите имя (например, Product Reviews Analysis). Щелкните Text analysis, затем щелкните Create.
  3. На вкладке Select щелкните Create dataset, чтобы импортировать набор данных sample_product_reviews_training.csv.
  4. Укажите Dataset name и щелкните Create.
  5. Щелкните Create dataset и просмотрите данные. Тренировочный набор данных содержит третий столбец, описывающий категорию продукта, а целевой столбец состоит из трех продуктов: книги, видео и музыка.
  6. Щелкните Create dataset, чтобы завершить процесс загрузки данных.
  7. На странице Select dataset выберите sample_product_reviews_training.csv и щелкните Select dataset.
Classification Steps

Обучение модели

Затем настройте модель для начала процесса обучения.

  1. На вкладке Build, в выпадающем меню Target column щелкните product_category в качестве целевого столбца обучения.
  2. Щелкните product_review как источник.
  3. Щелкните Quick build, чтобы начать обучение модели.

Для получения дополнительной информации о различиях между Quick Build и Standard Build обратитесь к Создание пользовательской модели.

По завершении обучения модели вы можете оценить ее производительность перед использованием для прогнозирования.

  1. На вкладке Анализ будет отображаться уверенность модели. Оценка уверенности указывает на то, насколько уверена модель в правильности своих прогнозов. На вкладке Обзор можно оценить производительность каждой категории.
  2. Нажмите Оценка, чтобы ознакомиться с данными об точности модели.
  3. Нажмите Дополнительная метрика, чтобы ознакомиться с матрицей ошибок и оценкой F1.

Прогнозирование

Для прогнозирования с помощью пользовательской модели выполните следующие действия:

  1. На вкладке Прогноз нажмите Пакетное прогнозирование, затем выберите Ручное.
  2. Выберите тот же набор данных sample_product_reviews.csv, который вы использовали ранее для анализа настроений, и нажмите Сгенерировать прогнозы.
  3. По завершении пакетного прогнозирования нажмите Просмотр, чтобы просмотреть прогнозы.

Для прогнозирования с помощью пользовательской модели требуется время для развертывания модели в SageMaker Canvas перед ее использованием. SageMaker Canvas автоматически отключает модель, если она не используется в течение 15 минут, чтобы сэкономить затраты.

Столбцы Прогноз (Категория) и Уверенность предоставляют предсказанные категории продуктов и оценки уверенности соответственно.

  1. Выделите выполненную задачу, выберите три точки и нажмите Загрузить, чтобы загрузить результаты на свой компьютер.

Очистка

В панели навигации нажмите Выйти, чтобы выйти из приложения SageMaker Canvas и прекратить использование часов сеанса Canvas и освободить все ресурсы.

Заключение

В этой статье мы продемонстрировали, как использовать Amazon SageMaker Canvas для извлечения информации из отзывов о продуктах без необходимости знаний в области машинного обучения. Сначала вы использовали готовую модель анализа настроений для определения настроений отзывов о продуктах. Затем вы использовали текстовый анализ для обучения пользовательской модели с помощью процесса быстрой сборки. Наконец, вы использовали обученную модель для классификации отзывов о продуктах по категориям. Все это удалось сделать без написания ни одной строки кода. Мы рекомендуем вам повторить процесс текстового анализа с помощью процесса стандартной сборки для сравнения результатов модели и уверенности в прогнозе.