Исследователи Meta AI представляют RA-DIT новый подход искусственного интеллекта к модернизации языковых моделей для повышения возможностей поиска информации для знаниевооруженных задач.

Новый подход RA-DIT от исследователей Meta AI модернизация языковых моделей для эффективного поиска информации в знаниевооруженных задачах

В попытке преодолеть ограничения больших языковых моделей (LLM) при учете менее распространенных знаний и высоких вычислительных затратах на обширное предварительное обучение, исследователи из Meta представляют Retrieval-Augmented Dual Instruction Tuning (RA-DIT). RA-DIT – это методика легкой настройки, разработанная для обеспечения любой LLM эффективными возможностями поиска. Он работает через два отдельных этапа настройки, каждый из которых значительно повышает производительность. Оптимизируя использование полученной информации моделью LM и содержание релевантности ретривера, RA-DIT предлагает многообещающее решение для усовершенствования LLM путем добавления возможностей поиска.

RA-DIT предоставляет легкий двухэтапный метод настройки для усовершенствования LLM возможностями поиска. Он оптимизирует использование полученной информации LLM лучше и усовершенствует ретривер, чтобы обеспечить более актуальные результаты, предпочтительные для LLM. RA-DIT превосходит существующие модели с добавлением возможности поиска в них на обучающих выборках с малым количеством данных, что подтверждает его превосходство включения внешних знаний в LLM с целью улучшения производительности.

Исследователи представили RA-DIT для оснащения LLM возможностями поиска. RA-DIT включает два ключевых этапа настройки: первый – повышение использования LLM предварительно обученной полученной информации и второй – усовершенствование ретривера для предоставления более контекстно актуальных результатов, предпочитаемых LLM. Их подход использует языковую модель LLAMA, предварительно обученную на обширном наборе данных, а также использует ретривер с двойным энкодером на основе DRAGON модели через его инициализацию. Кроме того, их метод упоминает использование параллельного контекстного наращивания для более эффективных вычислений прогнозов LLM.

Их метод достигает значительного улучшения производительности, и RA-DIT 65B устанавливает новые показатели в задачах с нулевым и малым количеством данных, связанных с использованием знаний, превышая существующие ретриев-улучшенные языковые модели (RALMs) на значительное значение. RA-DIT демонстрирует эффективность легкой настройки инструкций в улучшении производительности RALMs, особенно в сценариях, требующих доступа к обширным внешним источникам знаний.

RA-DIT превосходит существующие в контексте ретриев-улучшенные языковые модели (RALMs) в тестах на задания с нулевым и малым количеством данных, превышая в среднем на +8,9% в нулевом режиме и +1,4% в режиме 5 заданий. Лучшая модель, RA-DIT 65B, демонстрирует значительные улучшения в задачах, требующих использования знаний и контекстуального понимания. RA-DIT сохраняет параметрические знания и возможности логического вывода, превосходя базовые модели LLAMA в 7 из 8 оценочных наборов данных о здравом смысле. Анализ абляции и параллельное контекстное наращивание подчеркивают эффективность RA-DIT в улучшении ретриев-улучшенных языковых моделей, особенно для доступа к обширным знаниям.

В заключение, их подход представляет RA-DIT, который повышает производительность предварительно обученных языковых моделей с возможностями поиска. RA-DIT достигает самых современных результатов в задачах с нулевым и малым количеством данных, связанных с использованием знаний, превосходя не настроенные ретриев-улучшенные языковые модели с включенной в них логикой наличия контекстного восприятия. Он значительно повышает производительность в задачах, требующих использования знаний и контекстуального понимания. RA-DIT 65B превосходит существующие модели, демонстрируя эффективность легкой настройки инструкций для ретриев-улучшенных языковых моделей, особенно в сценариях, связанных с доступом к обширным внешним источникам знаний.