Усовершенствование ответа учебного алгоритма RAG техники самодиагностики и снижение когнитивной нагрузки

Совершенствование алгоритма RAG для самодиагностики улучшение ответа и снижение когнитивной нагрузки

Просьба ЛЛМ самостоятельно диагностировать и самостоятельно исправлять запрос для повышения качества ответа.

ЛЛМ выполняет самоотладку (изображение, созданное с помощью MidJourney)

Использование расширенной генерации с извлечением (Retrieval Augmented Generation, RAG) безусловно является мощным инструментом, который легко создается с использованием таких фреймворков, как LangChain или LlamaIndex. Такая простота интеграции может создать впечатление, что RAG – это магическое решение, которое легко создать для каждого случая использования. Однако, в нашем пути к модернизации нашего инструмента поиска редакционных статей, чтобы предлагать семантически более богатые результаты поиска и прямые ответы на запросы, мы обнаружили, что базовая конфигурация RAG не полностью удовлетворяет и сталкивается с многими вызовами. Построение RAG для демонстрации быстро и легко, часто приводя к достаточно впечатляющим результатам для небольшого подмножества сценариев. Однако, финальный этап достижения готовности к производству, где обязательно высокое качество, представляет существенные вызовы. Это особенно верно, когда имеется дело с обширной базой знаний, содержащей тысячи статей, специфичных для определенной области, что не является редкостным явлением.

Наш подход к RAG состоит из двух отдельных шагов:

  1. Извлечение релевантных документов Путем использования комбинации плотных и разреженных вложений мы извлекаем релевантные отрывки документов из нашей базы данных Pinecone, учитывая как содержимое, так и заголовок. Затем эти отрывки переупорядочиваются на основе их отношения к заголовку, содержимому и возрасту документа. Затем выбираются четыре лучших документа как потенциальные результаты поиска и контекст документа для генерации прямых ответов. Этот подход отличается от обычной конфигурации RAG и более эффективно решает наши уникальные вызовы извлечения документов.
  2. Генерация прямых ответов Здесь вопрос, инструкция и ранее извлеченные четыре лучших фрагмента документа (контекст документа) подаются на вход Большой Языковой Модели (LLM) для создания прямого ответа.
Архитектура RAG

Я подробно рассмотрел улучшение качества извлечения документов с помощью техник смешанного поиска и иерархического ранжирования документов в предыдущих обсуждениях. В этом блоге я хочу поделиться пониманием усовершенствования и устранения проблем…