Мета исследователи искусственного интеллекта предлагают усовершенствованные LLM с долгим контекстом.

Расширенные LLM с долгим контекстом предложение метойсследователями искусственного интеллекта

В новой статье исследователи Meta AI предлагают использовать продвинутые LLM с длинным контекстом для решения проблемы отсутствия доступа к LLM с надежными возможностями в долгосрочной перспективе. Ранее это было возможно только через проприетарные API.

Проблема заключается в том, что этот подход создает вакуум для исследователей и разработчиков, которые ищут решения с открытым исходным кодом. Хотя существуют открытые модели с длинным контекстом, они часто не проходят строгие оценки, сосредотачиваясь на потере моделирования языка и синтетических задачах, которые недостаточно отражают реальные сценарии.

Для решения этих проблем Meta AI предлагает новую методологию. Она основана на постоянном предварительном обучении с использованием проверочных точек LLAMA 2 и включении дополнительных 400 миллиардов токенов для создания обширных тренировочных последовательностей, которые улавливают сущность долгосрочного контекстного понимания.

До сих пор результаты представлены в виде моделей различных вариантов от меньших моделей 7B/13B, обученных с 32 768-токеновыми последовательностями, до более крупных моделей 34B/70B с 16 384-токеновыми последовательностями. Отличительная особенность данного подхода – тщательность процесса оценки.

В отличие от предыдущих исследований, Meta Research оценивает модели с разных точек зрения, включая возможности моделирования языка, синтетические задачи и бенчмарки реального мира. Они рассматривают задачи как с долгим, так и с коротким контекстом, предоставляя всестороннюю оценку возможностей моделей.

Результаты подчеркивают поведение моделей при масштабировании, демонстрируя их постоянное улучшение производительности с более широкими контекстами. Длина контекста является ключевым фактором масштабирования для LLM.

По сравнению с LLAMA 2 по исследовательским бенчмаркам, этот метод демонстрирует значительное развитие в задачах с долгим контекстом и умеренные улучшения в стандартных задачах с коротким контекстом. Особенно он преуспевает в задачах кодирования, математического решения проблем и задач, связанных с знаниями.

Еще одним аспектом, исследованном в данной работе, является поиск экономичного подхода к настройке сверхинструкции, что привело к созданию чат-модели, превосходящей gpt-3.5-turbo-16k в различных задачах с долгим контекстом.

Исходя из статьи и результатов, подход Meta Research позволяет преодолеть разрыв между проприетарными и открытыми моделями LLM с долгим контекстом. Он нацелен на модели с превосходной производительностью, всесторонним оцениванием и пониманием факторов, формирующих их возможности.

Эта работа дает исследователям и разработчикам возможность использовать потенциал моделей LLM с долгим контекстом, что в свою очередь может способствовать наступлению новой эры исследований на основе NLP. Meta AI стремится к более широкой демократизации и доступу к передовым языковым моделям и инструментам.