Исследователи из ET Зюрих представили UltraFastBERT вариант BERT, который использует всего 0,3% своих нейронов во время вывода, при этом показывая результаты на уровне аналогичных моделей BERT.

Инновационный UltraFastBERT новая эффективная модель на основе BERT, использование нейронов сокращено до 0,3%, но качество результатов остается на уровне привычной модели BERT.

Разработка UltraFastBERT исследователями из ETH Цюриха решает проблему сокращения количества нейронов, используемых во время вывода, при сохранении уровня производительности, сравнимого с другими моделями. Это достигается с помощью быстрых прямых сетей (FFF), что приводит к значительному увеличению скорости по сравнению с базовыми реализациями.

Существующие методы поддерживаются кодом, настройками бенчмарка и весами модели, предоставленными исследователями из ETH Цюриха. Они также предлагают изучить несколько деревьев FFF для совместных вычислений и потенциального применения в больших языковых моделях, таких как GPT-3. В исследовании предлагается дальнейшее ускорение с помощью гибридных разреженных тензоров и оптимизации устройства.

UltraFastBERT обеспечивает эффективное языковое моделирование с выборочным вовлечением во время вывода. Он заменяет прямые сети традиционных моделей на упрощенные FFF, используя одинаковые функции активации и веса выхода для всех узлов, устраняя при этом смещения. Несколько деревьев FFF совместно вычисляют промежуточные выходы слоев, что позволяет использовать разнообразные архитектуры. Предоставленные высокоуровневые реализации на CPU и PyTorch дают существенное ускорение, и исследование исследует возможное ускорение с помощью нескольких деревьев FFF, а также предлагает замену прямых сетей моделей языковых моделей большого размера на FFF. Рекомендуется использовать Intel MKL и NVIDIA cuBLAS для оптимизации под конкретное устройство.

UltraFastBERT достигает сравнимой производительности с BERT-base, используя всего 0.3% его нейронов во время вывода. Обученная на одном GPU в течение дня, она сохраняет как минимум 96.0% предиктивной производительности GLUE. UltraFastBERT-1×11-long соответствует производительности BERT-base с использованием 0.3% его нейронов. Производительность снижается с более глубокими быстрыми прямыми сетями, но за исключением CoLA, все модели UltraFastBERT сохраняют как минимум 98.6% предиктивной производительности. Сравнение показывает значительное увеличение скорости с использованием быстрых прямых слоев, достигая 48-78-кратного ускорения при немедленном выводе на CPU и ускорение в 3.15 раз на GPU, что указывает на потенциал замены больших моделей.

В заключение, UltraFastBERT – это модификация BERT, которая достигает эффективного языкового моделирования, используя только небольшую долю его нейронов во время вывода. Модель использует FFF для значительного увеличения скорости, а предоставленные реализации на CPU и PyTorch достигают ускорения в 78 и 40 раз, соответственно. Исследование предлагает потенциальное дальнейшее ускорение путем внедрения примитивов для условного выполнения нейронной сети. Несмотря на использование всего 0.3% его нейронов, лучшая модель UltraFastBERT соответствует производительности BERT-base, демонстрируя потенциал эффективного языкового моделирования. UltraFastBERT демонстрирует потенциальные преимущества в эффективном языковом моделировании, проложив путь для более быстрых и ресурсоэкономичных моделей в будущем.

Предложенные направления для дальнейших исследований включают внедрение эффективного вывода FFF с использованием гибридных разреженных тензоров на уровне вектора и оптимизацию для конкретного устройства. Предлагается изучение всего потенциала условного выполнения нейронной сети для ускоренного языкового моделирования. Обсуждается возможная оптимизация моделей языковых моделей большого размера путем замены прямых сетей на FFF. Будущая работа может сосредоточиться на воспроизводимых реализациях в популярных фреймворках, таких как PyTorch или TensorFlow, и обширного бенчмаркинга для оценки производительности и практических последствий UltraFastBERT и подобных эффективных языковых моделей.