Исследователи Meta AI предлагают передовые долгомасштабные LLM глубокое погружение в увеличение объема выборки, методики обучения и превосходство по отношению к производительности GPT-3.5-Turbo-16k.
Передовые долгомасштабные LLM суперглубокое погружение Meta AI, увеличение объема выборки и преимущества перед GPT-3.5-Turbo-16k
Появление Large Language Models (LLMs) в обработке естественного языка является прорывным событием. Эти модели, обученные на огромных объемах данных и использующие огромные вычислительные ресурсы, обещают преобразить взаимодействие человека с цифровым миром. По мере их развития и быстрого развертывания, их потенциальные сферы применения становятся все более сложными и комплексными. Они расширяют свои возможности для таких задач, как анализ плотных, содержательных документов, улучшение опыта работы с чатботами, делая его более подлинным и привлекательным, а также помощь пользователю в итеративных творческих процессах, таких как кодирование и дизайн.
Одной из ключевых функций, которая обеспечивает эту эволюцию, является возможность эффективной обработки долгих контекстуальных вводов. Это означает, что LLM-ы должны быть способны понимать и генерировать текст на основе значительных объемов предшествующего контекста, что особенно важно для задач, включающих длинные документы, многоходовые разговоры или сложное решение проблем.
Однако, до сих пор LLM-ы с надежными возможностями работы с долгим контекстом в основном были доступны через проприетарные API LLM, оставляя пробел в доступных решениях для исследователей и разработчиков. Открытые модели с долгим контекстом, хотя и ценны, часто не удовлетворяют требованиям их оценки. Обычно они сосредотачиваются на потерях при моделировании языка и создании синтетических задач, которые, хотя и информативны, не показывают их эффективность в разнообразных реальных сценариях. Более того, многие из этих моделей не обращают внимания на необходимость поддержания высокой производительности при стандартных краткосрочных задачах, обходя эти оценки или сообщая о низком качестве результатов.
- Исследователи из Университета Цинхуа и компании Microsoft представляют ToRA Интегрированный средством искусственного интеллекта агент по рассуждению для решения математических задач.
- Исследователи из Китая представляют ImageReward прорывной подход искусственного интеллекта к оптимизации моделей текст-изображение с использованием обратной связи на основе предпочтений человека.
- Исследователи из Массачусетского технологического института и Гарварда представляют революционный вычислительный подход на основе искусственного интеллекта эффективное определение оптимальных генетических вмешательств с помощью меньшего количества
В ответ на эти вызовы, новые исследования Meta представляют подход к созданию LLM с долгим контекстом, который превосходит все текущие открытые модели. Этот метод основан на постоянном предобучении на чекпоинтах LLAMA 2 и использует дополнительные 400 миллиардов токенов для создания обширных обучающих последовательностей. Эти последовательности созданы для захвата сути понимания долгого контекста. В работе предлагаются различные варианты моделей, включая меньшие модели 7B/13B, обученные с помощью последовательностей из 32,768 токенов, и более крупные модели 34B/70B, обученные с помощью последовательностей из 16,384 токенов.
Что отличает этот подход – глубокая оценка процесса. В отличие от предыдущих исследований, команда оценивает производительность модели по нескольким измерениям. Это включает оценку их способностей моделирования языка, производительности на синтетических задачах и, наиболее важно, их эффективности в широком спектре реальных испытаний. Они охватывают задачи с долгим и кратким контекстом, чтобы предоставить всеобъемлющее представление о возможностях моделей.
Результаты показывают, что поведение моделей при масштабировании демонстрирует их способность последовательно получать пользу от более широкого контекста и подчеркивает длину контекста как еще одну важную ось масштабирования LLM.
По сравнению с LLAMA 2 на исследовательских показателях, этот метод показывает значительные улучшения в задачах с долгим контекстом и умеренные улучшения в стандартных задачах с кратким контекстом. Эти улучшения особенно заметны при работе с кодированием, математическими задачами и задачами, связанными с знаниями. Более того, команда исследует простую и эффективную процедуру для настройки моделей с долгим контекстом без использования человеческих аннотаций. Результатом является модель чат-бота, превосходящая по производительности gpt-3.5-turbo-16k на ряде испытаний с долгим контекстом.
В целом, этот подход является значительным шагом в направлении сокращения разрыва между проприетарными и открытыми моделями LLM с долгим контекстом. Он предлагает модели с превосходной производительностью, обширной оценкой по различным измерениям и более глубоким пониманием факторов, влияющих на их возможности. В конечном итоге, команда надеется дать исследователям и разработчикам возможность использовать потенциал моделей LLM с долгим контекстом для широкого спектра приложений, открывая новую эру обработки естественного языка.