«Together AI представляет StripedHyena-7B альтернативную модель искусственного интеллекта, конкурентную с лучшими открытыми трансформерами в коротком и длинном контекстном оценивании»

«Together AI представляет StripedHyena-7B альтернативную модель искусственного интеллекта, конкурирующую с лучшими трансформерами в коротком и длинном контекстном оценивании»

Вместе с искусственным интеллектом был сделан большой вклад в моделирование последовательностей и представлены модели StripedHyena. Он революционизировал область, предлагая альтернативы традиционным трансформерам, сосредоточиваясь на вычислительной эффективности и улучшенной производительности.

В этом релизе представлена базовая модель StripedHyena-Hessian-7B (SH 7B) и модель для чата StripedHyena-Nous-7B (SH-N 7B). StripedHyena основан на важных уроках, полученных при создании эффективных архитектур моделирования последовательностей, таких как H3, Hyena, HyenaDNA и Monarch Mixer, которые были созданы в прошлом году.

Исследователи подчеркивают, что эта модель обрабатывает длинные последовательности на этапах обучения, донастройки и генерации с большей скоростью и эффективностью использования памяти. Используя гибридный подход, StripedHyena комбинирует отборные свертки и внимание в то, что они называют операторами Hyena. Кроме того, это первая альтернативная архитектура, конкурирующая с сильными базовыми моделями трансформера. В задачах с коротким контекстом, включая задачи лидеров OpenLLM, StripedHyena превосходит Llama-2 7B, Yi 7B и самые сильные альтернативы трансформера, такие как RWKV 14B.

Модель прошла оценку на различных показателях в обработке задач с коротким контекстом и обработке длинных подсказок. Эксперименты с масштабированием непонятности на книгах Project Gutenberg показывают, что непонятность либо насыщается на уровне 32k, либо уменьшается за эту точку, что указывает на способность модели усваивать информацию из более длинных подсказок.

StripedHyena достигает эффективности благодаря уникальной гибридной структуре, которая объединяет внимание и отборные свертки, организованные в операторы Hyena. Они использовали инновационные техники, чтобы оптимизировать этот гибридный дизайн, позволяющий изменять архитектуру во время обучения.

Исследователи подчеркивают, что одним из главных преимуществ StripedHyena является его улучшенная скорость и эффективность использования памяти для различных задач, таких как обучение, донастройка и генерация длинных последовательностей. Он превосходит оптимизированную базовую модель трансформера, используя FlashAttention v2 и пользовательские ядра более чем на 30%, 50% и 100% при обучении заслонками 32k, 64k и 128k соответственно.

В будущем исследователи хотят достичь значительного прогресса в нескольких областях с помощью моделей StripedHyena. Они хотят создать более большие модели, которые могут обрабатывать более длинные контексты, таким образом расширяя границы понимания информации. Более того, они хотят внедрить мультимодальную поддержку, увеличивая адаптивность модели, позволяя ей обрабатывать и понимать данные из различных источников, таких как текст и изображения.

Прежде всего, они хотят обучать более большие модели, которые могут обрабатывать более длинные контексты, тем самым расширяя границы понимания информации. Они также хотят улучшить производительность моделей StripedHyena, чтобы они работали более эффективно и эффективно.

В заключение, модель имеет потенциал для улучшения по сравнению с моделями трансформера за счет введения дополнительных вычислений, таких как несколько головок в отборных свертках. Этот подход, вдохновленный линейным вниманием, доказал свою эффективность в архитектурах, таких как H3 и MultiHyena, улучшает качество модели во время обучения и обеспечивает преимущества в эффективности вывода.