Mistral AI представляет Mixtral 8x7B мощная модель разреженной смеси экспертов

Mistral AI представляет Mixtral 8x7B – мощную модель разреженной смеси экспертов

В стремлении к развитию искусственного интеллекта Mistral AI, пионер в создании передовых открытых моделей, представляет Mixtral 8x7B. Эта модель с открытыми весами высокого качества и разреженным смесью экспертов (SMoE) является значительным прорывом в данной области. Отходя от традиционных архитектур и методов обучения, Mistral AI стремится дать разработчикам оригинальные модели, способствуя инновациям и разнообразным применениям.

Обзор Mixtral 8x7B

Mixtral 8x7B является моделью только для декодирования и использует разреженную смесь сети экспертов. С помощью 8 различных групп параметров блок прямого распространения динамически выбирает двух экспертов на каждом уровне для обработки токенов, объединяя их результаты аддитивно. Такой инновационный подход позволяет увеличить количество параметров модели до 46,7 миллиардов, при этом поддерживая контроль над стоимостью и задержкой. Модель работает с такой же скоростью и экономичностью затрат, как модель в 12,9 миллиарда.

Расширение границ с помощью разреженных архитектур

Mistral AI является пионером в использовании разреженных архитектур с Mixtral, что подтверждает его стремление расширить границы открытых моделей. Сеть маршрутизаторов в Mixtral эффективно обрабатывает входные данные и выбирает определенные группы параметров для каждого токена. Такое стратегическое использование параметров повышает производительность без ущерба для скорости или стоимости, делая Mixtral серьезным конкурентом на поле искусственного интеллекта.

Метрики производительности

Mixtral проходит тестирование на моделях Llama 2 и базовой модели GPT3.5. Результаты показывают мощь Mixtral, превосходя Llama 2 70B и соответствуя или превышая GPT3.5 на различных показателях. График компромисса качества относительно бюджета вывода иллюстрирует эффективность Mixtral 8x7B, помещая его среди высокоэффективных моделей по сравнению с аналогами Llama 2.

Галлюцинации, предубеждения и мастерство языка

Критический анализ производительности Mixtral выявляет его преимущества в показателях TruthfulQA, BBQ и BOLD. По сравнению с Llama 2, Mixtral демонстрирует большую правдивость и уменьшенные предубеждения. Модель показывает свое мастерство в нескольких языках, включая французский, немецкий, испанский, итальянский и английский.

Также читайте: От GPT до Mistral-7B: зрелищный скачок вперед в разговорах искусственного интеллекта

Наше мнение

Модель Mixtral 8x7B от Mistral AI устанавливает новый стандарт для открытых моделей и учитывает этические аспекты. Активное выявление и измерение галлюцинаций, предубеждений и эмоциональности демонстрируют преданность Mistral AI в совершенствовании модели путем настройки и моделирования предпочтений. Выпуск Mixtral 8x7B Instruct дополнительно подчеркивает стремление Mistral AI предоставлять универсальные, высокопроизводительные и этичные открытые модели.