Дайте возможность вашим бизнес-пользователям извлекать информацию из документов компании с помощью Amazon SageMaker Canvas Generative AI

Предоставление бизнес-пользователям возможности получать информацию из корпоративных документов с помощью Amazon SageMaker Canvas Generative AI

Предприятия стремятся использовать потенциал машинного обучения (ML) для решения сложных проблем и улучшения результатов. До недавнего времени для создания и развертывания моделей машинного обучения требовались глубокие знания технических и программных навыков, включая настройку моделей ML и поддержку операционных конвейеров. С момента своего введения в 2021 году, Amazon SageMaker Canvas позволяет бизнес-аналитикам строить, развертывать и использовать различные модели ML – включая табличные, компьютерное зрение и обработку естественного языка – без написания кода. Это ускорило возможность предприятий применять ML для таких случаев использования, как прогнозирование временных рядов, предсказание оттока клиентов, анализ настроений, обнаружение промышленных дефектов и многие другие.

Как было объявлено 5 октября 2023 года, SageMaker Canvas расширил поддержку моделей до фундаментальных моделей (FMs) – крупных языковых моделей, используемых для генерации и суммирования контента. С выпуском от 12 октября 2023 года, SageMaker Canvas позволяет пользователям задавать вопросы и получать ответы, основанные на их предприятий данных. Это гарантирует, что результаты будут контекстно-специфичными, открывая дополнительные случаи использования, где no-code ML может быть применен для решения деловых задач. Например, бизнес-команды теперь могут формулировать ответы, соответствующие специфической лексике и принципам организации, и могут более быстро запрашивать длинные документы, чтобы получить ответы, специфичные и основанные на содержимом этих документов. Вся эта информация выполняется в конфиденциальном и безопасном режиме, гарантируя, что вся конфиденциальная информация будет доступна с соблюдением правил управления и защиты.

Для начала работы администратор облачной системы настраивает и заполняет индексы Amazon Kendra данными предприятия в качестве источников данных для SageMaker Canvas. Пользователи Canvas выбирают индекс, в котором хранятся их документы, и могут генерировать исследования и исследовать их, зная, что результат всегда будет подтвержден их источниками правды. SageMaker Canvas использует фундаментальные модели (FMs) от Amazon Bedrock и Amazon SageMaker JumpStart. Беседы могут начинаться с нескольких FMs рядом, сравнивая результаты и делая возможность генеративного AI доступной для каждого.

В этом посте мы рассмотрим недавно выпущенную функцию, обсудим архитектуру и представим пошаговое руководство по включению SageMaker Canvas в поиск документов в вашей базе знаний, как показано на следующем снимке экрана.

Обзор решения

Фундаментальные модели могут создавать галлюцинации – ответы, которые являются общими, неопределенными, несвязанными или фактически неверными. Модель с возвратно-приобретенным поколением (RAG) – часто используемый подход для снижения галлюцинаций. Архитектуры RAG используются для извлечения данных извне FM, которые затем используются для выполнения контекстного обучения для ответа на вопросы пользователей. Это позволяет FM использовать данные из надежной базы знаний и использовать этот знакомый для ответов на вопросы пользователей, снижая риск галлюцинаций.

С RAG данные внешние для FM, используемые для расширения пользовательских запросов, могут извлекаться из нескольких разнородных источников данных, таких как хранилища документов, базы данных или API. Первым шагом является преобразование документов и пользовательских запросов в совместимый формат для выполнения релевантного семантического поиска. Чтобы сделать форматы совместимыми, коллекция документов или библиотека знаний и пользовательские запросы преобразуются в числовые представления с использованием встраивающих моделей.

С этим выпуском функциональность RAG предоставляется в формате без кода и способом без проблем. Предприятия могут расширить возможности чата в Canvas с помощью Amazon Kendra в качестве основной системы управления знаниями. Ниже приведена схема архитектуры решения.

Подключение SageMaker Canvas к Amazon Kendra требует одноразовой настройки. Мы подробно описываем процесс настройки в разделе “Настройка Canvas для запроса документов”. Если вы еще не настроили свою область SageMaker, обратитесь к Вступление в область Amazon SageMaker.

В рамках конфигурации области администратор облака может выбрать один или несколько индексов Kendra, которые бизнес-аналитик может использовать для запросов при взаимодействии с FM через SageMaker Canvas.

После гидратации и настройки индексов Kendra бизнес-аналитики используют их с помощью SageMaker Canvas, начиная новый чат и выбирая переключатель “Запрос документов”. SageMaker Canvas затем управляет подлежащей связью между Amazon Kendra и выбранной FM для выполнения следующих операций:

  1. Запрос индексов Kendra с вопросом от пользователя.
  2. Извлечение отрывков (и источников) из индексов Kendra.
  3. Составление подсказки с отрывками и исходным запросом, чтобы фоновая модель могла сгенерировать ответ на основе извлеченных документов.
  4. Предоставление сгенерированного ответа пользователю вместе с ссылками на страницы/документы, использованные для формулировки ответа.

Настройка Canvas для запроса документов

В этом разделе мы покажем вам, как настроить Canvas для запроса документов, обслуживаемых через индексы Kendra. У вас должны быть следующие предварительные условия:

  • Настройка области SageMaker – Вступление в область Amazon SageMaker
  • Создание индекса Kendra (или несколько)
  • Настройка подключения Kendra Amazon S3 – следуйте инструкции по подключению Amazon S3 – и загрузите файлы PDF и другие документы в корзину Amazon S3, связанную с индексом Kendra
  • Настройка IAM, чтобы Canvas имел соответствующие разрешения, включая те, которые требуются для вызова точек Amazon Bedrock и/или SageMaker – следуйте документации по настройке Canvas Chat

Теперь вы можете обновить область, чтобы она имела доступ к желаемым индексам. В консоли SageMaker для данной области выберите “Редактировать” на вкладке “Настройки области”. Включите переключатель “Включить запрос документов с помощью Amazon Kendra”, который находится на шаге “Настройки Canvas”. После активации выберите один или несколько индексов Kendra, которыми вы хотите пользоваться с помощью Canvas.

Этого достаточно для настройки функции запроса документов в Canvas. Теперь пользователи могут проводить чат внутри Canvas и начать использовать базы знаний, привязанные к области через индексы Kendra. Сопровождающие базы знаний могут продолжать обновлять источник и с помощью возможностей синхронизации в Kendra, пользователи чата автоматически смогут использовать актуальную информацию без проблем.

Использование функции запроса документов для чата

Как пользователь SageMaker Canvas, вы можете получить доступ к функции запроса документов из чата. Чтобы начать сеанс чата, нажмите или найдите кнопку “Создать, извлечь и суммировать содержимое” на вкладке “Модели готового использования” в SageMaker Canvas.

После этого вы сможете включить и отключить Query Documents с помощью переключателя в верхней части экрана. Проверьте информационное сообщение, чтобы узнать больше о функции.

Когда включена функция Query Documents, вы можете выбрать один из списка индексов Kendra, включенных администратором облачной платформы.

Вы можете выбрать индекс при начале нового чата. Затем вы можете задать вопрос в пользовательском интерфейсе, и знания будут автоматически загружены из выбранного индекса. Обратите внимание, что после начала разговора с конкретным индексом нельзя переключиться на другой индекс.

Для заданных вопросов чат покажет ответ, сгенерированный FM, а также исходные документы, которые способствовали формированию ответа. При нажатии на любой из исходных документов Canvas откроет предварительный просмотр документа, выделяя отрывок, использованный FM.

Заключение

Разговорный AI имеет огромный потенциал для преобразования опыта клиентов и сотрудников, предоставляя помощника, который ведет естественные и интуитивные взаимодействия, такие как:

  • Проведение исследований по определенной теме или поиск и просмотр базы знаний организации
  • Суммирование объемов контента для быстрого извлечения информации
  • Поиск сущностей, настроения, PII и других полезных данных, а также увеличение бизнес-валовсти неструктурированного контента
  • Создание черновиков документов и деловой переписки
  • Создание статей с использованием разных внутренних источников (инциденты, чат-логи, вики)

Инновационная интеграция чат-интерфейсов, извлечения информации и FM позволяет предприятиям предоставлять точные и релевантные ответы на вопросы пользователей, используя свои знания в определенной области и источники правды.

Соединяя SageMaker Canvas с базами знаний в Amazon Kendra, организации могут сохранять свои собственные данные в собственной среде, одновременно получая преимущества передовых возможностей естественного языка FMs. С запуском функции Query Documents в SageMaker Canvas мы делаем использование LLMs и их знаний предприятия в качестве источника информации для защищенного чата легким и удобным для любого предприятия. Вся эта функциональность доступна в формате “без кода”, позволяющем предприятиям избежать выполнения рутинных и неразнообразных задач.

Чтобы узнать больше о SageMaker Canvas и о том, как он помогает упростить начало работы с машинным обучением, ознакомьтесь с анонсом SageMaker Canvas. Изучите также, как SageMaker Canvas способствует сотрудничеству между специалистами по данным и бизнес-аналитиками, прочитав статью о создании, совместном использовании и развертывании. Наконец, чтобы узнать, как создать свой собственный рабочий процесс с улучшенным извлечением данных, обратитесь к SageMaker JumpStart RAG.

Ссылки

Льюис, П., Перес, Э., Пиктус, А., Петрони, Ф., Карпухин, В., Гойял, Н., Кюттлер, Х., Льюис, М., Ий, В., Роктяшель, Т., Ридел, С., Киела, Д. (2020). Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks. Advances in Neural Information Processing Systems, 33, 9459-9474.