Усовершенствование ответа учебного алгоритма RAG техники самодиагностики и снижение когнитивной нагрузки
Совершенствование алгоритма RAG для самодиагностики улучшение ответа и снижение когнитивной нагрузки
Просьба ЛЛМ самостоятельно диагностировать и самостоятельно исправлять запрос для повышения качества ответа.
Использование расширенной генерации с извлечением (Retrieval Augmented Generation, RAG) безусловно является мощным инструментом, который легко создается с использованием таких фреймворков, как LangChain или LlamaIndex. Такая простота интеграции может создать впечатление, что RAG – это магическое решение, которое легко создать для каждого случая использования. Однако, в нашем пути к модернизации нашего инструмента поиска редакционных статей, чтобы предлагать семантически более богатые результаты поиска и прямые ответы на запросы, мы обнаружили, что базовая конфигурация RAG не полностью удовлетворяет и сталкивается с многими вызовами. Построение RAG для демонстрации быстро и легко, часто приводя к достаточно впечатляющим результатам для небольшого подмножества сценариев. Однако, финальный этап достижения готовности к производству, где обязательно высокое качество, представляет существенные вызовы. Это особенно верно, когда имеется дело с обширной базой знаний, содержащей тысячи статей, специфичных для определенной области, что не является редкостным явлением.
Наш подход к RAG состоит из двух отдельных шагов:
- Извлечение релевантных документов Путем использования комбинации плотных и разреженных вложений мы извлекаем релевантные отрывки документов из нашей базы данных Pinecone, учитывая как содержимое, так и заголовок. Затем эти отрывки переупорядочиваются на основе их отношения к заголовку, содержимому и возрасту документа. Затем выбираются четыре лучших документа как потенциальные результаты поиска и контекст документа для генерации прямых ответов. Этот подход отличается от обычной конфигурации RAG и более эффективно решает наши уникальные вызовы извлечения документов.
- Генерация прямых ответов Здесь вопрос, инструкция и ранее извлеченные четыре лучших фрагмента документа (контекст документа) подаются на вход Большой Языковой Модели (LLM) для создания прямого ответа.
![Архитектура RAG](https://ai.miximages.com/miro.medium.com/v2/resize:fit:640/format:webp/1*90tAqz-uOn1XlnEcqrONAw.jpeg)
Я подробно рассмотрел улучшение качества извлечения документов с помощью техник смешанного поиска и иерархического ранжирования документов в предыдущих обсуждениях. В этом блоге я хочу поделиться пониманием усовершенствования и устранения проблем…