Mistral AI Установка Новых Рекордов За Llama2 в Пространстве Открытого Кода

Mistral AI Побивая рекорды в мире открытого кода с Llama2

Большие модели языков (LLMs) недавно стали в центре внимания благодаря выдающимся исполнителям, таким как ChatGPT. Когда Meta представила свои модели Llama, это вызвало обновленный интерес к открытым LLM-моделям. Цель? Создать доступные открытые LLM-модели, которые будут не хуже лучших моделей топ-уровня, таких как GPT-4, но без огромной стоимости или сложности.

Это сочетание доступности и эффективности не только открыло новые возможности для исследователей и разработчиков, но также подготовило почву для новой эры технологических достижений в области обработки естественного языка.

Недавно стартапы по генеративному искусственному интеллекту активно привлекают финансирование. Вместе они собрали 20 миллионов долларов с целью формирования открытого искусственного интеллекта. Anthropic также привлекла внушительные 450 миллионов долларов, и Cohere, сотрудничая с Google Cloud, в июне этого года получила 270 миллионов.

Введение в Mistral 7B: размер и доступность

mistral AI

Mistral AI, базирующаяся в Париже и основанная выпускниками Google’s DeepMind и Meta, анонсировала свою первую большую модель языка: Mistral 7B. Эту модель может скачать любой человек с GitHub или даже с помощью 13.4-гигабайтного torrent.

Этот стартап смог привлечь рекордные средства еще до выпуска своего продукта. Первая модель Mistral AI с 7 миллиардами параметров превосходит по результативности модель Llama 2 13B во всех тестах и превосходит модель Llama 1 34B по многим метрикам.

По сравнению с другими моделями, такими как Llama 2, Mistral 7B обеспечивает аналогичные или лучшие возможности с меньшей вычислительной нагрузкой. В то время как базовые модели, такие как GPT-4, могут достичь большего, они стоят дороже и не так удобны в использовании, так как доступны преимущественно через API.

Когда дело доходит до задач написания кода, Mistral 7B прекрасно справляется с конкурентом CodeLlama 7B. При этом она достаточно компактна с объемом 13.4 ГБ, чтобы работать на стандартных компьютерах.

Кроме того, Mistral 7B Instruct, настроенная специально для обучающих наборов данных на Hugging Face, показала отличные результаты. Она превосходит другие 7B-модели на MT-Bench и стоит наравне с 13B-моделями чата.

hugging-face mistral ai example

Пример Hugging Face Mistral 7B

Сравнение производительности

В подробном анализе производительности Mistral 7B было проведено сравнение с моделями семейства Llama 2. Результаты были ясными: Mistral 7B заметно превосходит Llama 2 13B во всех тестах. Фактически, она сравнима с Llama 34B по производительности, особенно в тестах кода и логического мышления.

Тесты были организованы в несколько категорий, таких как общеценовое мышление, мировые знания, понимание текста, математика и код, среди прочего. Особенно заметными результатами была метрика стоимости производительности Mistral 7B, называемая “эквивалентные размеры модели”. В областях логического мышления и понимания Mistral 7B продемонстрировала производительность, подобную модели Llama 2 размером в три раза больше, что указывает на возможные экономии памяти и увеличение пропускной способности. Однако в тестах по знаниям Mistral 7B тесно соотносится с моделью Llama 2 13B, что вероятно связано с ограничениями параметров, влияющих на сжатие знаний.

Что действительно делает модель Mistral 7B лучше большинства других языковых моделей?

Упрощение механизмов внимания

Хотя тонкости механизмов внимания являются техническими, их основная идея относительно проста. Представьте, что вы читаете книгу и выделяете важные предложения; это аналогично тому, как механизмы внимания “выделяют” или придают значимость определенным данным в последовательности.

В контексте языковых моделей эти механизмы позволяют модели сосредоточиться на наиболее релевантных частях входных данных, обеспечивая коэрентность и контекстуальную точность вывода.

В стандартных трансформерах оценки внимания рассчитываются по формуле:

Transformers attention Formula

Формула оценок внимания трансформеров

Эта формула включает в себя важный шаг – матричное умножение Q и K. Однако здесь возникает проблема: по мере увеличения длины последовательности оба матрицы соответственно увеличиваются, что приводит к вычислительно сложному процессу. Эта проблема масштабируемости является одной из основных причин, почему стандартные трансформеры могут работать медленно, особенно при работе с длинными последовательностями.

transformer Механизмы внимания помогают моделям фокусироваться на конкретных частях входных данных. Обычно эти механизмы используют “головы” для управления этим вниманием. Чем больше у вас голов, тем более специфичное внимание, но это также делает его более сложным и медленным. Углубитесь в изучение трансформеров и механизмов внимания здесь.

Многозапросное внимание (MQA) ускоряет процесс, используя один набор “голов ключ-значение”, но иногда жертвует качеством. Теперь вы можете спросить, почему бы не совместить скорость MQA с качеством многоголового внимания? Вот где на помощь приходит сгруппированное многозапросное внимание (GQA).

Сгруппированное многозапросное внимание (GQA)

Grouped-query attention

Сгруппированное многозапросное внимание

GQA представляет собой срединное решение. Вместо использования только одной или нескольких “голов ключ-значение”, они группируются. Таким образом, GQA достигает производительности, близкой к детальному многоголовому вниманию, но с скоростью MQA. Для моделей, таких как Mistral, это означает эффективность работы без существенного ущерба качеству.

Скользящее окно внимания (SWA)

longformer transformers sliding window

Скользящее окно – это еще один метод, используемый при обработке последовательностей внимания. Этот метод использует окно внимания фиксированного размера вокруг каждого токена последовательности. Путем накладывания этого оконного внимания на несколько слоев верхние слои получают более широкую перспективу, охватывая информацию от всего входа. Этот механизм аналогичен рецептивным полям, которые видны в сверточных нейронных сетях (CNN).

С другой стороны, “растянутое скользящее окно внимания” модели Longformer, концептуально похожее на метод скользящего окна, вычисляет только несколько диагоналей матрицы QKT. Это изменение приводит к линейному росту использования памяти, а не квадратичному, что делает его более эффективным методом для более длинных последовательностей.

Прозрачность Mistral AI против проблем безопасности в децентрализации

В своем объявлении, Mistral AI также подчеркнула прозрачность с заявлением: “Никаких хитростей, никаких собственных данных.” Но в то же время их единственная доступная модель на данный момент – ‘Mistral-7B-v0.1’, это предварительно обученная базовая модель, поэтому она может генерировать ответы на любую запрос без модерации, что вызывает потенциальные проблемы безопасности. В то время как модели, такие как GPT и Llama, имеют механизмы для определения, когда отвечать, полностью децентрализованный характер Mistral может быть злоупотреблен недобросовестными лицами.

Однако децентрализация больших языковых моделей имеет свои преимущества. В то время как некоторые могут злоупотреблять этим, люди могут использовать его мощь для общественного блага и сделать интеллект доступным всем.

Гибкость развертывания

Одним из основных преимуществ является то, что Mistral 7B доступен по лицензии Apache 2.0. Это означает, что нет никаких реальных преград для его использования – будь то личные цели, огромная корпорация или государственная организация. Вам просто нужна правильная система для его запуска, или вам может потребоваться вложение в облачные ресурсы.

Хотя существуют и другие лицензии, такие как более простая лицензия MIT и кооперативная CC BY-SA-4.0, которая предусматривает кредит и схожую лицензию для производных работ, Apache 2.0 обеспечивает прочную основу для крупномасштабных предприятий.

Последние мысли

Возникновение открытых моделей больших языков, таких как Mistral 7B, символизирует переломный момент в индустрии искусственного интеллекта, делая высококачественные языковые модели доступными для более широкой аудитории. Инновационные подходы Mistral AI, такие как Grouped-query attention и Sliding Window Attention, обещают эффективную производительность без ущерба для качества.

Хотя децентрализованная природа Mistral представляет определенные проблемы, его гибкость и лицензирование с открытым исходным кодом подчеркивают потенциал демократизации искусственного интеллекта. По мере развития ситуации, фокусировка будет неизбежно сосредотачиваться на сбалансированном сочетании мощности этих моделей с этическими соображениями и механизмами безопасности.

Что предстоит для Mistral? Модель 7B была только началом. Команда планирует скоро выпустить еще более масштабные модели. Если эти новые модели соответствуют производительности 7B, Mistral может быстро стать одним из ведущих игроков в отрасли всего за первый год.