3-шаговый подход для оценки алгоритма RAG (Восстановление с увеличенной генерацией)

3-шаговая методика оценки алгоритма RAG (Восстановление с увеличенной генерацией)

Прекратите произвольно выбирать параметры вашего RAG

Фото: Adi Goldstein на Unsplash

Настройка вашего RAG для достижения оптимальной производительности требует времени, так как это зависит от различных взаимозависимых параметров: размера блока, наложения, выбранных K документов, моделей вложений, LLM и т. д.

Лучшая комбинация часто зависит от ваших данных и конкретной задачи: нельзя просто вставить настройки, использованные в последнем проекте, и надеяться на одинаковые результаты.

Большинство людей не обращают должного внимания на эту проблему и выбирают параметры практически случайным образом. В то время как некоторые люди удовлетворены таким подходом, я решил решить проблему численно.

Вот где приходит оценка вашего RAG.

В этом посте я покажу вам быстрый трехшаговый метод, который вы можете использовать для эффективной и быстрой оценки ваших RAG на двух задачах.

  1. Получение
  2. Генерация

Овладев этим методом оценки, вы сможете проводить итерации, выполнять множество экспериментов, сравнивать их с помощью метрик и, надеюсь, получить наилучшую конфигурацию.

Давайте посмотрим, как это работает 👇.

PS: В каждом разделе предоставлены фрагменты кода, чтобы вы смогли начать воплощать эти идеи в жизнь.

1 — Создайте синтетический набор данных

Чтобы оценить LLM, часто требуется ручная аннотация тестового набора данных. Это занимает много времени, требует экспертизы в области и подвержено ошибкам человека.

К счастью, LLM могут помочь нам с этой задачей.

Выберите N блоков из ваших данных. Для каждого блока попросите LLM сгенерировать K пар вопросов и ответов. После завершения генерации вы получите набор данных из N*K пар, каждая из которых имеет формат (вопрос, ответ, контекст).

Пс: Контекст здесь – это оригинальный блок и его метаданные.

В следующем примере мы рассмотрим абзац, в котором упоминается Сэр Айзек Ньютон.

Сэр Айзек Ньютон наиболее известен своей теорией гравитации, но его “Математические начала натуральной философии” (1686 г.) с тремя законами движения сильно повлияли на Просвещение в Европе. Он родился в 1643 году в Улсторпе, Англия…