Создание данных конвейеров для разработки приложений с использованием больших языковых моделей.

Использование больших языковых моделей при разработке приложений Создание переключаемых конвейеров

 

Предприятия в настоящее время используют два подхода для создания приложений на основе LLM – тонкое настройка и расширенная генерация с помощью поиска (RAG). В целом, RAG принимает входные данные и извлекает набор соответствующих/поддерживающих документов с учетом источника (например, вики-страница компании). Документы объединяются в качестве контекста с исходным входным запросом и подаются на модель LLM, которая производит окончательный ответ. РАГ, кажется, является наиболее популярным подходом для внедрения LLM на рынок, особенно в сценариях с обработкой в реальном времени. Архитектура LLM для поддержки этого подхода включает построение эффективного конвейера данных.

В этой статье мы исследуем различные этапы конвейера данных LLM, чтобы помочь разработчикам создавать системы высокого качества, работающие с их данными. Следуйте за нами, чтобы узнать, как загружать, подготавливать, обогащать и обрабатывать данные для работы с приложениями GenAI.

 

Каковы различные этапы конвейера LLM?

 

Это различные этапы конвейера LLM:

Загрузка неструктурированных данных

Векторизация с обогащением (с метаданными) 

Индексация векторов (с синхронизацией в реальном времени)

Процессор AI для запросов

Взаимодействие с пользователем на естественном языке (через чат или API)

 

 

Загрузка неструктурированных данных

 

Первый шаг – сбор подходящих данных для достижения бизнес-целей. Если вы создаете чат-бота для потребителей, вам особенно важно обратить внимание на то, какие данные будут использоваться. Источниками данных могут быть портал компании (например, Sharepoint, Confluent, хранилище документов) или внутренние API. Идеальным вариантом является механизм пассивной передачи данных из этих источников в индекс, чтобы ваше LLM-приложение было актуальным для конечного потребителя.

Организации должны реализовывать политику и протоколы управления данными при извлечении текстовых данных для обучения LLM в контексте. Организации могут начать аудит источников документов для каталогизации уровней конфиденциальности, условий лицензирования и происхождения. Определите ограниченные данные, которые требуют выделения или исключения из наборов данных.

Оцените источники данных также по качеству – разнообразию, объему, уровню шума, избыточности. Низкокачественные наборы данных снижают качество ответов от LLM-приложений. Возможно, вам понадобится механизм предварительной классификации документов, чтобы правильно организовать хранение данных в дальнейшем в конвейере.

Соблюдение правил управления данными, даже в быстром развитии LLM, снижает риски. Установка правил управления заранее устраняет многие проблемы и обеспечивает масштабируемое, надежное извлечение текстовых данных для контекстного обучения.

Извлечение сообщений через API Slack, Telegram или Discord обеспечивает доступ к данным в режиме реального времени, что помогает RAG, но исходные разговорные данные содержат шум – опечатки, проблемы с кодировкой, странные символы. Фильтрация сообщений в реальном времени с оскорбительным содержанием или чувствительными личными данными, которые могут быть ПИИ, является важной частью очистки данных.

 

Векторизация с метаданными

 

Метаданные, такие как автор, дата и контекст разговора, дополнительно обогащают данные. Это внедрение векторов внешних знаний помогает более умным и целевым извлечением.

Некоторые метаданные, связанные с документами, могут находиться на портале или в собственных метаданных документа. Однако, если документ прикреплен к бизнес-объекту (например, делу, клиенту, информации о сотруднике), вам придется получить эту информацию из реляционной базы данных. Если имеются проблемы безопасности при доступе к данным, это место, где можно добавить метаданные безопасности, которые также помогут на этапе извлечения данных в дальнейшем в конвейере.

Критическим шагом здесь является преобразование текста и изображений в векторные представления с использованием моделей вложения LLM. Для документов сначала нужно выполнить фрагментацию, а затем выполнять кодирование, предпочтительно с использованием встроенных моделей внедрения нулевого шага на месте.

 

Векторная индексация

 

Векторные представления должны храниться где-то. Вот где используются векторные базы данных или векторные индексы для эффективного хранения и индексирования этой информации как встраивания.

Это становится вашим «основным источником правды» и он должен быть синхронизирован с вашими источниками данных и документами. Реактивная индексация становится важной, если ваше приложение LLM обслуживает клиентов или генерирует бизнес-информацию. Вы хотите избежать несоответствия вашего приложения LLM и источников данных.

 

Быстрое извлечение с помощью процессора запросов

 

Когда у вас есть миллионы корпоративных документов, получение правильного контента на основе запроса пользователя становится сложной задачей.

Здесь начальные этапы конвейера начинают добавлять ценность: очистка и обогащение данных с помощью добавления метаданных и, что самое важное, индексация данных. Это добавление в контексте помогает укрепить оперативную инженерию.

 

Взаимодействие с пользователем

 

В традиционной среде конвейеризации данных вы отправляете данные в хранилище данных, а аналитический инструмент извлекает отчеты из хранилища. В конвейере LLM пользовательский интерфейс обычно представляет собой чат-интерфейс, который, как минимум, принимает запрос пользователя и отвечает на него.

 

Резюме

 

Основной проблемой этого нового типа конвейера не является просто создание прототипа, а запуск его в работу. Вот где становится важным решение проблемы мониторинга корпоративного уровня, отслеживающее ваши конвейеры и хранилища векторов. Возможность получения бизнес-данных из структурированных и неструктурированных источников данных становится важным архитектурным решением. LLM представляют собой передовое направление в области обработки естественного языка, и создание конвейеров данных корпоративного уровня для приложений, работающих на LLM, поможет вам оставаться на передовой.

Здесь можно получить доступ к доступному исходному коду фреймворка обработки потоков в реальном времени.

[Anup Surendran](https://www.linkedin.com/in/anupsurendran/) – вице-президент по продукту и продуктовому маркетингу, специализирующийся на внедрении продуктов искусственного интеллекта на рынок. Он работал с стартапами, которые имели два успешных исхода (SAP и Kroll), и любит обучать других, как продукты искусственного интеллекта могут повысить производительность в организации.