Исследователи XLang NLP Lab предлагают Lemur современные открытые предварительно обученные модели больших языков, балансирующие возможности текста и кода

XLang NLP Lab researchers offer Lemur modern open pre-trained models for large languages, balancing text and code capabilities.

В мире, все более управляемым пересечением языка и технологии, спрос на многофункциональные и мощные языковые модели никогда не был таким великим. Традиционные большие языковые модели (LLM) блестяще справляются с пониманием текста или задачами по кодированию, но редко удается достичь гармоничного баланса между ними. Этот дисбаланс оставил нишу на рынке для моделей, которые могут безупречно навигировать в текстовом рассуждении и владении кодированием. Вот где появляются Лемур и Лемур-чат, два революционных вклада в область открытых предварительно обученных и супервизируемых моделей LLM, которые стремятся заполнить эту нишу.

Создание языковых моделей, которые могут компетентно обрабатывать и текст, и код, является давней проблемой. Существующие LLM-модели обычно специализируются на понимании текста или задачах по кодированию, но редко оба сразу. Эта специализация заставляет разработчиков и исследователей выбирать между моделями, которые превосходят в одной области, но уступают в другой. В результате возникла острая необходимость в LLM-моделях, которые могут предлагать многогранный набор навыков, охватывающий понимание, рассуждение, планирование, кодирование и контекстуальную основу.

Хотя существуют некоторые решения в виде традиционных LLM-моделей, их ограничения остаются очевидными. В отрасли не хватает моделей, которые действительно могут балансировать сложные требования как к тексту, так и к задачам, связанным с кодом. Это создало пустоту в ландшафте языковых моделей-агентов, где интегрированный подход к пониманию, рассуждению и кодированию является важным.

Проект Лемур, организованный Лабораторией XLang в сотрудничестве с Salesforce Research, стремится заполнить эту критическую пробел в технологии языковых моделей. Лемур и Лемур-чат представляют собой первоначальное усилие по разработке открытых предварительно обученных и супервизируемых LLM-моделей, которые превосходят в задачах текста и кода. Основой этого предприятия является обширное предварительное обучение Llama 2 на огромном корпусе из ~100 миллиардов строк кода. Этот этап предварительного обучения сопровождается супервизируемым дообучением на ~300 000 образцах публичных учебных и диалоговых данных. В результате получается языковая модель с улучшенными возможностями кодирования и контекстной основой, сохраняя при этом конкурентоспособные возможности текстового рассуждения и знаний.

Показатели производительности Лемура и Лемур-чата свидетельствуют о их мастерстве. Лемур выделяется, так как превосходит другие открытые языковые модели по показателям задач кодирования, демонстрируя свою грамотность в кодировании. Одновременно он сохраняет свое конкурентное преимущество в задачах текстового рассуждения и знаний, показывая свой многофункциональный набор навыков. В то же время, Лемур-чат значительно превосходит другие открытые модели с супервизируемым дообучением по различным параметрам, указывая на его исключительные способности в сокращении разрыва между текстом и кодом в контексте беседы.

Проект Лемур представляет собой совместные исследовательские усилия с вкладами как Лаборатории XLang, так и Salesforce Research при поддержке щедрых пожертвований от Salesforce Research, Google Research и Amazon AWS. Хотя путь к сбалансированной модели открытого исходного кода все еще продолжается, вклады Лемура уже начали перестраивать ландшафт технологии языковых моделей. Предоставляя модель, которая превосходит как текст, так и задачи, связанные с кодом, Лемур предлагает мощный инструмент для разработчиков, исследователей и организаций, стремящихся проникнуть во все более сложное пересечение языка и технологии.

В заключение, проект Лемур стоит как флагман инноваций в мире языковых моделей. Его способность гармонично балансировать задачи текста и кода решает давнюю проблему в этой области. По мере того, как Лемур продолжает развиваться и устанавливать новые стандарты, он обещает продвигать дальнейшие исследования моделей агентов и установить более мощное и сбалансированное основание для открытых языковых моделей. С Лемуром будущее технологии языковых моделей становится более ярким и универсальным, чем когда-либо прежде.