Исследователи Meta AI предлагают передовые долгомасштабные LLM глубокое погружение в увеличение объема выборки, методики обучения и превосходство по отношению к производительности GPT-3.5-Turbo-16k.

Передовые долгомасштабные LLM суперглубокое погружение Meta AI, увеличение объема выборки и преимущества перед GPT-3.5-Turbo-16k

Появление Large Language Models (LLMs) в обработке естественного языка является прорывным событием. Эти модели, обученные на огромных объемах данных и использующие огромные вычислительные ресурсы, обещают преобразить взаимодействие человека с цифровым миром. По мере их развития и быстрого развертывания, их потенциальные сферы применения становятся все более сложными и комплексными. Они расширяют свои возможности для таких задач, как анализ плотных, содержательных документов, улучшение опыта работы с чатботами, делая его более подлинным и привлекательным, а также помощь пользователю в итеративных творческих процессах, таких как кодирование и дизайн.

Одной из ключевых функций, которая обеспечивает эту эволюцию, является возможность эффективной обработки долгих контекстуальных вводов. Это означает, что LLM-ы должны быть способны понимать и генерировать текст на основе значительных объемов предшествующего контекста, что особенно важно для задач, включающих длинные документы, многоходовые разговоры или сложное решение проблем.

Однако, до сих пор LLM-ы с надежными возможностями работы с долгим контекстом в основном были доступны через проприетарные API LLM, оставляя пробел в доступных решениях для исследователей и разработчиков. Открытые модели с долгим контекстом, хотя и ценны, часто не удовлетворяют требованиям их оценки. Обычно они сосредотачиваются на потерях при моделировании языка и создании синтетических задач, которые, хотя и информативны, не показывают их эффективность в разнообразных реальных сценариях. Более того, многие из этих моделей не обращают внимания на необходимость поддержания высокой производительности при стандартных краткосрочных задачах, обходя эти оценки или сообщая о низком качестве результатов.

В ответ на эти вызовы, новые исследования Meta представляют подход к созданию LLM с долгим контекстом, который превосходит все текущие открытые модели. Этот метод основан на постоянном предобучении на чекпоинтах LLAMA 2 и использует дополнительные 400 миллиардов токенов для создания обширных обучающих последовательностей. Эти последовательности созданы для захвата сути понимания долгого контекста. В работе предлагаются различные варианты моделей, включая меньшие модели 7B/13B, обученные с помощью последовательностей из 32,768 токенов, и более крупные модели 34B/70B, обученные с помощью последовательностей из 16,384 токенов.

Что отличает этот подход – глубокая оценка процесса. В отличие от предыдущих исследований, команда оценивает производительность модели по нескольким измерениям. Это включает оценку их способностей моделирования языка, производительности на синтетических задачах и, наиболее важно, их эффективности в широком спектре реальных испытаний. Они охватывают задачи с долгим и кратким контекстом, чтобы предоставить всеобъемлющее представление о возможностях моделей.

Результаты показывают, что поведение моделей при масштабировании демонстрирует их способность последовательно получать пользу от более широкого контекста и подчеркивает длину контекста как еще одну важную ось масштабирования LLM.

По сравнению с LLAMA 2 на исследовательских показателях, этот метод показывает значительные улучшения в задачах с долгим контекстом и умеренные улучшения в стандартных задачах с кратким контекстом. Эти улучшения особенно заметны при работе с кодированием, математическими задачами и задачами, связанными с знаниями. Более того, команда исследует простую и эффективную процедуру для настройки моделей с долгим контекстом без использования человеческих аннотаций. Результатом является модель чат-бота, превосходящая по производительности gpt-3.5-turbo-16k на ряде испытаний с долгим контекстом.

В целом, этот подход является значительным шагом в направлении сокращения разрыва между проприетарными и открытыми моделями LLM с долгим контекстом. Он предлагает модели с превосходной производительностью, обширной оценкой по различным измерениям и более глубоким пониманием факторов, влияющих на их возможности. В конечном итоге, команда надеется дать исследователям и разработчикам возможность использовать потенциал моделей LLM с долгим контекстом для широкого спектра приложений, открывая новую эру обработки естественного языка.