Лаборатория искусственного интеллекта Tencent представляет Chain-of-Noting (CoN), чтобы повысить устойчивость и надежность моделей языка, достигаемых с помощью обратной связи при поиске информации

Лаборатория искусственного интеллекта Tencent представляет Chain-of-Noting (CoN) для повышения надежности и устойчивости моделей языка при использовании обратной связи в процессе поиска информации

Исследователи Tencent AI Lab решают проблемы надежности моделей языка с усиленным поисковым элементом (RALMs), которые могут получать несущественную информацию, в результате чего возникают неправильные ответы. Предложенный подход, CHAIN-OF-NOTING (CON), направлен на улучшение RALM. RALM со встроенным конвейером CON демонстрирует значительное повышение производительности при работе с бенчмарками широкого охвата вопросы-ответы, достигая заметного увеличения оценок на точность совпадения (EM) и коэффициента отказа от вопросов, выходящих за пределы темы.

Исследование обращается к ограничениям RALMs, акцентируя внимание на устойчивости к шуму и сокращении зависимости от полученных документов. Подход CON создает последовательные заметки чтения для полученных документов, обеспечивая комплексную оценку их актуальности. Кейс-исследования показывают, что CON повышает модельное понимание актуальности документов, что приводит к более точным, контекстно соответствующим ответам, отфильтровывая несущественное или недостоверное содержимое.

Превосходя стандартные RALMs, CON достигает более высоких оценок точности совпадения и коэффициента отказа от вопросов, выходящих за пределы темы. Он балансирует прямую выборку, непрямое заключение и учет знаний, напоминающий обработку информации человека. Реализация CON включает разработку заметок чтения, сбор данных и обучение модели, предлагая решение существующим ограничениям RALM и повышение надежности.

CON, фреймворк, создающий последовательные заметки чтения для полученных документов, улучшает производительность RALMs. Обученный на модели LLaMa-2 7B с использованием тренировочных данных, созданных ChatGPT, CON превосходит стандартные RALMs, особенно в условиях высокого шума. Он классифицирует заметки чтения как прямые ответы, полезный контекст и неизвестные сценарии, демонстрируя надежный механизм оценки актуальности документов. Сравнение с базовым методом LLaMa-2 wo IR показывает способность CON фильтровать неактуальное содержимое, улучшая точность ответов и контекстную соответственность.

RALMs, оснащенные CON, демонстрируют значительные улучшения, достигая впечатляющего увеличения средней оценки EM для полностью шумных полученных документов, равного +7.9. CON демонстрирует заметное увеличение коэффициента отказа от вопросов реального времени, выходящих за пределы начальных знаний, равное +10.5. Метриками оценки являются оценка EM, оценка F1 и коэффициент отказа для вопросов-ответов широкого охвата. Кейс-исследования подчеркивают эффективность CON в углублении понимания RALMs, преодолении проблемы шумных и неактуальных документов и повышении общей надежности.

Фреймворк CON значительно улучшает RALMs. Путем создания последовательных заметок чтения для полученных документов и интеграции этой информации в окончательный ответ, RALMs, оснащенные CON, превосходят стандартные RALMs, показывая заметное среднее улучшение. CON решает ограничения стандартных RALMs, способствуя более глубокому пониманию актуальной информации и повышению общей производительности на различных бенчмарках вопросы-ответы широкого охвата.

Будущие исследования могут расширить применение фреймворка CON на различные области и задачи, оценив его универсальность и эффективность в укреплении RALMs. Изучение различных стратегий выборки и методов ранжирования документов может оптимизировать процесс выборки, улучшая актуальность полученных документов. Пользовательские исследования должны оценить удобство и удовлетворенность использованием RALMs с CON в реальных сценариях, учитывая качество и достоверность ответов. Исследование дополнительных внешних источников знаний и совмещение CON с техниками, такими как предварительное обучение или донастройка, могут дополнительно улучшить производительность и приспособляемость RALMs.