Индексируйте ваш контент с помощью нового Веб-сканера для Amazon Kendra.

Улучшите индексацию вашего контента с помощью нового Веб-сканера для Amazon Kendra.

Amazon Kendra – это высокоточный и простой в использовании сервис интеллектуального поиска, основанный на машинном обучении (ML). Amazon Kendra предлагает набор коннекторов для источников данных, чтобы упростить процесс индексации вашего контента, независимо от его местонахождения.

Ценные данные в организациях хранятся как в структурированных, так и в неструктурированных репозиториях. Решение для предприятий должно обеспечивать полностью управляемый опыт и упрощать процесс индексации контента из различных источников данных в предприятии.

Таким одним неструктурированным репозиторием данных являются внутренние и внешние веб-сайты. Сайты могут быть просканированы для создания новостных лент, анализа использования языка или создания ботов для ответов на вопросы на основе данных веб-сайта.

Мы рады сообщить вам, что теперь вы можете использовать новый веб-сканер Amazon Kendra для поиска ответов в контенте, сохраненном на внутренних и внешних веб-сайтах или для создания чат-ботов. В этом посте мы покажем, как проиндексировать информацию, хранящуюся на веб-сайтах, и использовать интеллектуальный поиск в Amazon Kendra для поиска ответов в контенте, хранящемся на внутренних и внешних веб-сайтах. Кроме того, интеллектуальный поиск, основанный на ML, может точно получать ответы на ваши вопросы из неструктурированных документов с контентом на естественном языке, для которых поиск по ключевым словам не очень эффективен.

Веб-сканер предлагает следующие новые функции:

  • Поддержка базовой аутентификации, NTLM/Kerberos, формы и SAML
  • Возможность указать 100 начальных URL-адресов и сохранить конфигурацию подключения в Amazon Simple Storage Service (Amazon S3)
  • Поддержка веб- и интернет-прокси с возможностью предоставления учетных данных прокси
  • Поддержка сканирования динамического контента, такого как веб-сайт, содержащий JavaScript
  • Функции сопоставления полей и фильтрации с использованием регулярных выражений

Обзор решения

С Amazon Kendra вы можете настроить несколько источников данных, чтобы предоставить централизованное место для поиска в вашем репозитории документов. В нашем решении мы показываем, как проиндексировать просканированный сайт с помощью веб-сканера Amazon Kendra. Решение состоит из следующих шагов:

  1. Выбор механизма аутентификации для веб-сайта (если требуется) и сохранение деталей в AWS Secrets Manager.
  2. Создание индекса Amazon Kendra.
  3. Создание источника данных V2 веб-сканера через консоль Amazon Kendra.
  4. Запуск пробного запроса для проверки решения.

Предварительные требования

Для тестирования веб-сканера Amazon Kendra вам понадобятся следующие компоненты:

Собрать детали аутентификации

Для защищенных и безопасных веб-сайтов поддерживаются следующие типы и стандарты аутентификации:

  • Базовая аутентификация
  • NTLM/Kerberos
  • Форма аутентификации
  • SAML

Вам понадобятся данные для аутентификации при настройке источника данных.

Для базовой или NTLM аутентификации вам необходимо указать ваш секрет AWS Secrets Manager, имя пользователя и пароль.secrets manager basic auth

Для формы и SAML аутентификации требуется дополнительная информация, как показано на следующем скриншоте. Некоторые поля, такие как User name button Xpath, являются необязательными и зависят от того, использует ли сканируемый сайт кнопку после ввода имени пользователя. Также обратите внимание, что вам потребуется знать, как определить путь Xpath к полям имени пользователя и пароля, а также кнопкам отправки данных.

секреты менеджера SAML

Создание индекса Amazon Kendra

Чтобы создать индекс Amazon Kendra, выполните следующие шаги:

  1. На консоли Amazon Kendra выберите Создать индекс.kendra
  2. В поле Имя индекса введите имя для индекса (например, Веб-сканер).
  3. Введите необязательное описание.
  4. В поле Имя роли введите имя IAM-роли.
  5. Настройте дополнительные параметры шифрования и тегов.
  6. Выберите Далее.детали индекса
  7. В разделе Настройка контроля доступа пользователей оставьте настройки по умолчанию и выберите Далее.контроль доступа пользователей
  8. Для Выдачи версий выберите Версия разработчика и выберите Далее.выдача версий
  9. На странице обзора выберите Создать.

Это создает и распространяет IAM-роль, а затем создает индекс Amazon Kendra, что может занять до 30 минут.

индекс кендры

Создание источника данных Amazon Kendra Web Crawler

Чтобы создать источник данных, выполните следующие шаги:

  1. На консоли Amazon Kendra выберите Источники данных в панели навигации.
  2. Найдите плитку Веб-сканер соединителя V2.0 и выберите Добавить соединитель.веб-сканер соединитель
  3. В поле Имя источника данных введите имя (например, crawl-fda).
  4. Введите необязательное описание.
  5. Выберите Далее.детали источника данных
  6. В разделе Источник выберите URL-адрес источника и введите URL-адрес. В этой статье мы используем https://www.fda.gov/ в качестве примера URL-адреса источника.
  7. В разделе Аутентификация выберите соответствующую аутентификацию на основе сайта, который вы хотите сканировать. В этой статье мы выбираем Без аутентификации, потому что это общедоступный сайт без необходимости аутентификации.
  8. В разделе Веб-прокси вы можете указать секрет Secrets Manager (при необходимости).
    1. Выберите Создать и добавить новый секрет.
    2. Введите данные аутентификации, которые вы собрали ранее.
    3. Выберите Сохранить.
  9. В разделе IAM-роль выберите Создать новую роль и введите имя (например, AmazonKendra-Web Crawler-роль-источника данных).
  10. Выберите Далее.доступ и безопасность
  11. В разделе Область синхронизации настройте параметры синхронизации в соответствии с сайтом, который вы сканируете. В этой статье мы оставляем все настройки по умолчанию.
  12. Для Режима синхронизации выберите, как вы хотите обновить свой индекс. В этой статье мы выбираем Полная синхронизация.
  13. Для Расписания запуска синхронизации выберите Запустить по требованию.
  14. Выберите Далее.настройка синхронизации
  15. По желанию, вы можете установить сопоставления полей. В этой статье мы оставляем значения по умолчанию.

Отображение полей – полезное упражнение, при котором вы можете заменить имена полей на значения, которые удобны пользователю и соответствуют словарю вашей организации.

  1. Выберите Далее.сопоставление полей
  2. Выберите Добавить источник данных.добавить источник данных
  3. Для синхронизации источника данных выберите Синхронизировать сейчас на странице сведений об источнике данных.начать синхронизацию
  4. Дождитесь завершения синхронизации.синхронизация завершена

Пример проиндексированного сайта

Если вы хотите проиндексировать сайт с идентификацией, то в разделе Идентификация в предыдущих шагах вам необходимо указать данные для аутентификации. Ниже приведен пример, если вы выбрали Аутентификацию формы.

  1. В разделе Источник выберите URL источника и введите URL. В этом примере мы используем https://accounts.autodesk.com.

  2. В разделе Идентификация выберите Аутентификация формы.

  3. В разделе Веб-прокси укажите ваш секрет из менеджера секретов. Это требуется для любой опции, кроме Без аутентификации.

    1. Выберите Создать и добавить новый секрет.
    2. Введите данные аутентификации, которые вы собрали ранее.
    3. Выберите Сохранить.
    создание секрета в менеджере секретов

Проверка решения

Теперь, когда вы проиндексировали контент с сайта в свой индекс Amazon Kendra, вы можете протестировать некоторые запросы.

  1. Перейдите в свой индекс и выберите Поиск в проиндексированном контенте.
  2. Введите пример запроса и протестируйте результаты поиска (ваш запрос будет различаться в зависимости от содержимого сайта, который вы проиндексировали, и введенного запроса).результаты поиска

Поздравляем! Вы успешно использовали Amazon Kendra для предоставления ответов и исходной информации на основе проиндексированного контента с сайта, который вы проиндексировали.

Очистка

Чтобы избежать дальнейших расходов, удалите созданные ресурсы в рамках этого решения. Если вы создали новый индекс Amazon Kendra при тестировании этого решения, удалите его. Если вы только добавили новый источник данных, используя веб-сканер Amazon Kendra, удалите этот источник данных.

Заключение

С помощью нового веб-инструмента Amazon Kendra Web Crawler V2 организации могут производить сканирование любого публичного или защищенного паролем веб-сайта и использовать его для интеллектуального поиска, основанного на Amazon Kendra.

Чтобы узнать об этих возможностях и многом другом, обратитесь к Руководству разработчика Amazon Kendra. Дополнительную информацию о том, как создавать, изменять или удалять метаданные и контент при загрузке ваших данных, см. в статьях Обогащение документов во время загрузки и Улучшение контента и метаданных для оптимизации поискового опыта с помощью пользовательского обогащения документов в Amazon Kendra.