Эта статья по искусственному интеллекту предлагает метод генерации рекурсивной памяти для улучшения долгосрочной согласованности в разговорных моделях большого языка.
Эта статья предлагает метод генерации рекурсивной памяти для улучшения долгосрочной согласованности в разговорных моделях языка.
Чатботы и другие формы систем открытого диалога привлекли большой интерес и стали объектом исследований в последние годы. Настройка долгосрочного обсуждения является сложной задачей, поскольку требует знания и запоминания ключевых моментов предыдущих разговоров.
Большие языковые модели (LLM), такие как ChatGPT и GPT-4, показали обнадеживающие результаты в нескольких недавних задачах обработки естественного языка. В результате, в диалоговых чатботах открытой тематики/задачи используются возможности LLM для стимулирования. Однако, в продолжительном обсуждении даже ChatGPT может терять контекст и давать несогласованные ответы.
Исследователи из Китайской академии наук и Университета Сиднея исследуют, можно ли эффективно использовать LLM в долгосрочных разговорах без пометок данных или дополнительных инструментов. Исследователи используют LLM для создания рекурсивных сводок в качестве памяти, где они сохраняют важную информацию из текущего разговора, вдохновляясь памятью-усиленными подходами. В реальном использовании LLM сначала дается краткое описание и просится его свести в краткую сводку/память. Затем LLM объединяет предыдущие и последующие утверждения, чтобы создать новую сводку/память. Затем исследователи заключают, указывая LLM принять решение на основе самой последней информации, которую он сохранил.
- Понимают ли друг друга Flamingo и DALL-E? Исследование симбиоза между моделями подписывания изображений и синтеза текста в изображение
- Как автоматизированные кассы в розничной торговле могут распознавать немаркированные продукты? Знакомьтесь с подходом PseudoAugment в компьютерном зрении
- Машинное обучение с экспертными моделями Введение
Предложенная схема может служить реальным решением для моделирования длительного контекста (сессии диалога) существующим LLM без дорогостоящего расширения максимальной длины и моделирования долгосрочного дискурса.
Полезность предложенной схемы демонстрируется экспериментально на общедоступном долгосрочном наборе данных с использованием простого в использовании API LLM ChatGPT и text-davinci-003. Кроме того, исследование показывает, что использование единственного помеченного образца может значительно улучшить эффективность предложенной стратегии.
Исследователи поручили произвольной большой языковой модели выполнять задачи управления памятью и генерации ответов. Первое отвечает за итеративное резюмирование важных деталей текущего разговора, а второе использует память для создания приемлемого ответа.
В этом исследовании команда использовала только автоматические меры для оценки эффективности предложенной методологии, что может быть не оптимально для диалоговых чатботов открытой тематики. В реальных приложениях они не могут игнорировать стоимость вызова огромных моделей, которая не учитывается их решением.
В будущем исследователи планируют проверить эффективность своего подхода к моделированию длительного контекста на других задачах с длительным контекстом, включая создание историй. Они также планируют улучшить возможности сводки своего метода с использованием локально контролируемой донастроенной LLM, вместо дорогостоящего онлайн-интерфейса API.