Индексируйте ваш контент с помощью нового Веб-сканера для Amazon Kendra.
Улучшите индексацию вашего контента с помощью нового Веб-сканера для Amazon Kendra.
Amazon Kendra – это высокоточный и простой в использовании сервис интеллектуального поиска, основанный на машинном обучении (ML). Amazon Kendra предлагает набор коннекторов для источников данных, чтобы упростить процесс индексации вашего контента, независимо от его местонахождения.
Ценные данные в организациях хранятся как в структурированных, так и в неструктурированных репозиториях. Решение для предприятий должно обеспечивать полностью управляемый опыт и упрощать процесс индексации контента из различных источников данных в предприятии.
Таким одним неструктурированным репозиторием данных являются внутренние и внешние веб-сайты. Сайты могут быть просканированы для создания новостных лент, анализа использования языка или создания ботов для ответов на вопросы на основе данных веб-сайта.
Мы рады сообщить вам, что теперь вы можете использовать новый веб-сканер Amazon Kendra для поиска ответов в контенте, сохраненном на внутренних и внешних веб-сайтах или для создания чат-ботов. В этом посте мы покажем, как проиндексировать информацию, хранящуюся на веб-сайтах, и использовать интеллектуальный поиск в Amazon Kendra для поиска ответов в контенте, хранящемся на внутренних и внешних веб-сайтах. Кроме того, интеллектуальный поиск, основанный на ML, может точно получать ответы на ваши вопросы из неструктурированных документов с контентом на естественном языке, для которых поиск по ключевым словам не очень эффективен.
- Как машинное обучение и искусственный интеллект могут быстро обнаруживать поддельные отзывы?
- Облачные платформы интеграции для ускорения бизнес-трансформации
- LLaMA-v2-Chat против Альпаки Когда следует использовать каждую модель искусственного интеллекта?
Веб-сканер предлагает следующие новые функции:
- Поддержка базовой аутентификации, NTLM/Kerberos, формы и SAML
- Возможность указать 100 начальных URL-адресов и сохранить конфигурацию подключения в Amazon Simple Storage Service (Amazon S3)
- Поддержка веб- и интернет-прокси с возможностью предоставления учетных данных прокси
- Поддержка сканирования динамического контента, такого как веб-сайт, содержащий JavaScript
- Функции сопоставления полей и фильтрации с использованием регулярных выражений
Обзор решения
С Amazon Kendra вы можете настроить несколько источников данных, чтобы предоставить централизованное место для поиска в вашем репозитории документов. В нашем решении мы показываем, как проиндексировать просканированный сайт с помощью веб-сканера Amazon Kendra. Решение состоит из следующих шагов:
- Выбор механизма аутентификации для веб-сайта (если требуется) и сохранение деталей в AWS Secrets Manager.
- Создание индекса Amazon Kendra.
- Создание источника данных V2 веб-сканера через консоль Amazon Kendra.
- Запуск пробного запроса для проверки решения.
Предварительные требования
Для тестирования веб-сканера Amazon Kendra вам понадобятся следующие компоненты:
- Сайт для сканирования.
- AWS-аккаунт с привилегиями для создания ролей и политик управления доступом и идентификации (Identity and Access Management, IAM) AWS. Дополнительные сведения см. в разделе Обзор управления доступом: Разрешения и политики.
- Базовые знания AWS.
Собрать детали аутентификации
Для защищенных и безопасных веб-сайтов поддерживаются следующие типы и стандарты аутентификации:
- Базовая аутентификация
- NTLM/Kerberos
- Форма аутентификации
- SAML
Вам понадобятся данные для аутентификации при настройке источника данных.
Для базовой или NTLM аутентификации вам необходимо указать ваш секрет AWS Secrets Manager, имя пользователя и пароль.
Для формы и SAML аутентификации требуется дополнительная информация, как показано на следующем скриншоте. Некоторые поля, такие как User name button Xpath, являются необязательными и зависят от того, использует ли сканируемый сайт кнопку после ввода имени пользователя. Также обратите внимание, что вам потребуется знать, как определить путь Xpath к полям имени пользователя и пароля, а также кнопкам отправки данных.

Создание индекса Amazon Kendra
Чтобы создать индекс Amazon Kendra, выполните следующие шаги:
- На консоли Amazon Kendra выберите Создать индекс.
- В поле Имя индекса введите имя для индекса (например, Веб-сканер).
- Введите необязательное описание.
- В поле Имя роли введите имя IAM-роли.
- Настройте дополнительные параметры шифрования и тегов.
- Выберите Далее.
- В разделе Настройка контроля доступа пользователей оставьте настройки по умолчанию и выберите Далее.
- Для Выдачи версий выберите Версия разработчика и выберите Далее.
- На странице обзора выберите Создать.
Это создает и распространяет IAM-роль, а затем создает индекс Amazon Kendra, что может занять до 30 минут.

Создание источника данных Amazon Kendra Web Crawler
Чтобы создать источник данных, выполните следующие шаги:
- На консоли Amazon Kendra выберите Источники данных в панели навигации.
- Найдите плитку Веб-сканер соединителя V2.0 и выберите Добавить соединитель.
- В поле Имя источника данных введите имя (например, crawl-fda).
- Введите необязательное описание.
- Выберите Далее.
- В разделе Источник выберите URL-адрес источника и введите URL-адрес. В этой статье мы используем https://www.fda.gov/ в качестве примера URL-адреса источника.
- В разделе Аутентификация выберите соответствующую аутентификацию на основе сайта, который вы хотите сканировать. В этой статье мы выбираем Без аутентификации, потому что это общедоступный сайт без необходимости аутентификации.
- В разделе Веб-прокси вы можете указать секрет Secrets Manager (при необходимости).
- Выберите Создать и добавить новый секрет.
- Введите данные аутентификации, которые вы собрали ранее.
- Выберите Сохранить.
- В разделе IAM-роль выберите Создать новую роль и введите имя (например,
AmazonKendra-Web Crawler-роль-источника данных
). - Выберите Далее.
- В разделе Область синхронизации настройте параметры синхронизации в соответствии с сайтом, который вы сканируете. В этой статье мы оставляем все настройки по умолчанию.
- Для Режима синхронизации выберите, как вы хотите обновить свой индекс. В этой статье мы выбираем Полная синхронизация.
- Для Расписания запуска синхронизации выберите Запустить по требованию.
- Выберите Далее.
- По желанию, вы можете установить сопоставления полей. В этой статье мы оставляем значения по умолчанию.
Отображение полей – полезное упражнение, при котором вы можете заменить имена полей на значения, которые удобны пользователю и соответствуют словарю вашей организации.
- Выберите Далее.
- Выберите Добавить источник данных.
- Для синхронизации источника данных выберите Синхронизировать сейчас на странице сведений об источнике данных.
- Дождитесь завершения синхронизации.
Пример проиндексированного сайта
Если вы хотите проиндексировать сайт с идентификацией, то в разделе Идентификация в предыдущих шагах вам необходимо указать данные для аутентификации. Ниже приведен пример, если вы выбрали Аутентификацию формы.
-
В разделе Источник выберите URL источника и введите URL. В этом примере мы используем https://accounts.autodesk.com.
-
В разделе Идентификация выберите Аутентификация формы.
-
В разделе Веб-прокси укажите ваш секрет из менеджера секретов. Это требуется для любой опции, кроме Без аутентификации.
- Выберите Создать и добавить новый секрет.
- Введите данные аутентификации, которые вы собрали ранее.
- Выберите Сохранить.
Проверка решения
Теперь, когда вы проиндексировали контент с сайта в свой индекс Amazon Kendra, вы можете протестировать некоторые запросы.
- Перейдите в свой индекс и выберите Поиск в проиндексированном контенте.
- Введите пример запроса и протестируйте результаты поиска (ваш запрос будет различаться в зависимости от содержимого сайта, который вы проиндексировали, и введенного запроса).
Поздравляем! Вы успешно использовали Amazon Kendra для предоставления ответов и исходной информации на основе проиндексированного контента с сайта, который вы проиндексировали.
Очистка
Чтобы избежать дальнейших расходов, удалите созданные ресурсы в рамках этого решения. Если вы создали новый индекс Amazon Kendra при тестировании этого решения, удалите его. Если вы только добавили новый источник данных, используя веб-сканер Amazon Kendra, удалите этот источник данных.
Заключение
С помощью нового веб-инструмента Amazon Kendra Web Crawler V2 организации могут производить сканирование любого публичного или защищенного паролем веб-сайта и использовать его для интеллектуального поиска, основанного на Amazon Kendra.
Чтобы узнать об этих возможностях и многом другом, обратитесь к Руководству разработчика Amazon Kendra. Дополнительную информацию о том, как создавать, изменять или удалять метаданные и контент при загрузке ваших данных, см. в статьях Обогащение документов во время загрузки и Улучшение контента и метаданных для оптимизации поискового опыта с помощью пользовательского обогащения документов в Amazon Kendra.