Знакомьтесь с RAVEN языковой моделью с усиленным кодировщиком-декодировщиком, которая решает ограничения ATLAS.

RAVEN - языковая модель с усиленным кодировщиком-декодировщиком, решающая ограничения ATLAS.

Большие языковые модели (LLM) сыграли значительную роль в последних разработках в области обработки естественного языка (NLP). Эти модели продемонстрировали удивительные возможности в широком спектре задач и существенно повысили популярность искусственного интеллекта. Их способность учиться в контексте является ключевым компонентом их величия, так как, используя предлагаемую контекстуальную информацию, обучение в контексте позволяет этим LLM адаптироваться к новым действиям и областям без необходимости специфической настройки. Благодаря этому, LLM также смогли преуспеть в ситуациях, связанных с обучением с нулевым или малым количеством образцов, когда доступно только небольшое количество примеров.

Недавние исследования изучили потенциал обучения в контексте в моделях языка с кодировщиком-декодером, улучшенных с помощью поиска. Были изучены возможности современной модели ATLAS, и были выявлены ее ограничения, которые в основном включают несоответствие этапов предварительного обучения и тестирования модели и ограничение количества контекстуальной информации, которую можно обработать.

Для решения этих проблем исследовательская группа из Университета Иллинойса в Урбане-Шампейне, США, и NVIDIA, США, представила уникальную парадигму под названием RAVEN, модель языка с кодировщиком-декодером, улучшенную с помощью поиска. Эта модель решает проблемы, возникшие в ATLAS, и для улучшения ее способности к обучению в контексте RAVEN использует двухстороннюю стратегию. Первая часть сочетает методы моделирования языка с префиксами и моделирования языка с масками, улучшая понимание моделью контекстно связанного содержания и ее способность производить контекстно релевантный контент путем минимизации разницы между предварительным обучением и тестовыми данными.

Во-вторых, RAVEN представила улучшение, которое называется Фьюжн в контексте обучения. Цель этого метода – улучшить производительность модели в сценариях с небольшим количеством образцов, и его примечательной особенностью является возможность увеличения количества примеров в контексте, которые модель может использовать без необходимости дополнительных модификаций или повторного обучения. Это важно, поскольку это позволяет модели более эффективно и эффективно использовать контекстуальную информацию.

Экспериментальная фаза исследования включает в себя ряд обширных испытаний и оценок, которые были проведены для оценки работы RAVEN в сравнении с моделью ATLAS. Результаты показывают, что RAVEN значительно превосходит ATLAS в плане понимания контекста и способности производить точные ответы. При использовании существенно меньшего количества параметров RAVEN иногда производит результаты, сравнимые с результатами самых сложных языковых моделей.

Команда подвела итоги своих вкладов следующим образом.

  • Был проведен тщательный анализ ATLAS, сфокусированный на его способности к обучению в контексте.
  • Была представлена новая модель RAVEN, построенная путем интеграции методов моделирования языка с поиском с масками и префиксами, которая стремится решить выявленные ограничения в ATLAS.
  • Были предложены методы Фьюжн в контексте обучения и Извлечение примеров в контексте для укрепления производительности моделей кодировщик-декодер с поиском, таких как RAVEN. Эти методы позволяют улучшить использование контекста без значительных изменений или дополнительного обучения.
  • Через обширные эксперименты исследование подтвердило эффективность RAVEN и предложенных методов, где результаты показали превосходную производительность RAVEN в различных сценариях, превосходя ATLAS и другие базовые модели.

В заключение, данная работа подчеркивает потенциал моделей языка с кодировщиком-декодером, улучшенных с помощью поиска, таких как RAVEN, в повышении возможностей обучения в контексте.