Исследователи из Принстонского университета и Meta AI представляют MemWalker новый метод, который первоначально обрабатывает длинный контекст в дерево сводных узлов.

Принстонский университет совместно с Meta AI представляют MemWalker новый метод обработки длинного контекста в виде дерева сводных узлов

Применение архитектуры Трансформера с самоорганизацией и увеличением размера модели и объема предварительного обучения привело к значительному прогрессу в создании крупных языковых моделей (LLM). Поскольку LLM улучшают свои возможности, пользователи все чаще желают использовать более длинные последовательности входных данных во время вывода. В результате возникает все большая потребность в сервисах, предоставляющих возможность анализировать обширные тексты, такие как юридические или научные исследования, и управлять длинными разговорами. Более длительное время обработки контекста крайне полезно при работе с таким объемом информации, каким требуются указанные задачи.

Несмотря на достигнутый прогресс, недостатки механизма самоорганизации становятся более очевидными по мере увеличения длины последовательности и необходимости отслеживания большего количества памяти. Для решения этой проблемы применяются различные методы, такие как разработка более компактных и эффективных схем самоорганизации, настройка с использованием экстраполированных или интерполированных встроенных позиционных вложений, использование рекуррентности для передачи информации от одного сегмента текста к следующему и поиск необходимых отрывков. Однако эти методы все еще имеют свои ограничения. Несмотря на перемещение ползунка, размер окна контекста всегда остается одинаковым, и не каждая точка имеет одинаковый вес. Хотя рекуррентность может обрабатывать последовательности неопределенной длины, она часто забывает детали из предыдущих частей последовательности.

Вместо того чтобы анализировать всю последовательность сразу, исследователи из Принстонского университета и Meta AI предлагают радикально новый метод, который рассматривает модель с конечным окном контекста как интерактивного агента, тем самым решая вышеуказанные проблемы. Для достижения этой цели они представляют MEMWALKER, метод, который пошагово направляет модель через обширный текст на основе LLM.

MEMWALKER – это двухэтапный процесс, который включает в себя:

  1. Создание древа памяти
  2. Использование этого древа для навигации

В первой фазе длинный материал разбивается на управляемые фрагменты, которые могут быть обработаны моделью LLM. Затем сам LLM конденсирует информацию из каждого сегмента в объединенный узел-резюме. Древовидная структура строится на основе этих узлов-резюме и далее суммируется до более высокого уровня. При обработке запроса пользователя LLM возвращается к началу дерева. Модель рассматривает каждую ветку дерева и анализирует текст, чтобы найти путь, отвечающий на вопрос. Это позволяет MEMWALKER быстро обрабатывать тексты и определять важные части длинного текста на его родном языке без необходимости настройки со стороны пользователя.

Исследование работы MEMWALKER показало, что данная система превосходит рекуррентность, поиск и классические модели LLM, когда ей задаются вопросы трех различных типов, требующих длинного контекста. Другие системы с длиной контекста от 8000 до 16000 токенов не могут сравниться с производительностью MEMWALKER.Они оценивают его производительность, показывая, что метод может делать рассуждения о навигационных решениях, использовать рабочую память при прохождении и исправлять ошибки, допущенные на ранних этапах навигации.

Команда также обсуждала три существенных недостатка MEMWALKER:

  1. Генерация древа памяти может неэффективна при более длинной последовательности.
  2. Результаты исследования показывают, что LLM должна быть больще (более 70 млрд.) и настроена специально для MEMWALKER для достижения эффективности.
  3. Интерактивные возможности чтения MEMWALKER ограничены возможностью проставить нулевой заданный запрос и не используют настройку в какой-либо форме.

Тем не менее, команда считает, что MEMWALKER открывает путь для множества интересных исследований в будущем, включая расширение его использования до других структур данных, кроме деревьев, и оптимизацию его производительности для задач интерактивного чтения.