Исследователи Эффективной школы Техники Цюриха представляют архитектуру быстрого прямого распространения (FFF) аналог архитектуры прямого распространения (FF), обеспечивающий доступ к блокам своих нейронов за логарифмическое время.

Researchers from the Efficient School of Engineering in Zurich present an architecture called Fast Feedforward (FFF), which is an analog of the Feedforward (FF) architecture, providing access to blocks of its neurons in logarithmic time.

Внедрение невероятных моделей больших языков (LLM) было нечто более чем революционным в области искусственного интеллекта. Способ взаимодействия людей с технологией изменился благодаря этим сложным алгоритмам, которые основаны на огромных объемах данных и вычислительной мощности. ИИ меняет способ взаимодействия людей с машинами, и с помощью мощи LLM ряд областей проходят революцию.

Моделям-трансформерам необходимы прямые слои, поскольку они являются ключевыми для производительности модели. Эти слои отвечают за преобразование входных данных и являются центральными для производительности модели. В последние годы размеры моделей-трансформеров увеличились, и теперь их прямые слои включают десятки тысяч скрытых нейронов. Нахождение стратегий ускорения вычислений прямого слоя является важным, поскольку увеличение размера модели привело к увеличению вычислительных затрат во время вывода.

Только небольшая часть скрытых нейронов прямого слоя требуется в очень больших сетях для определения выходных данных для заданного входа. В ответ на это понимание были предприняты попытки создать модульные сети, которые используют этот феномен. Недавние исследования в этой области сосредоточены на архитектурных конструкциях, которые способствуют разреженности прямого слоя. Для этого требуется обучение воротного слоя для выбора экспертов, которых следует использовать во время вывода, а также разделение прямого слоя на отдельные блоки нейронов. Этот метод повышает сложность обучения и сокращает время вывода, но он также зависит от шумного воротного устройства.

В качестве альтернативы существующим подходам команда из двух исследователей из ETH Цюрих представила архитектуру Fast Feedforward (FFF). FFF использует дифференцируемое бинарное дерево, разделяя пространство входных данных на несколько регионов, одновременно изучая границы каждого сектора и соответствующие нейронные блоки. По сравнению с обычными прямыми слоями и модуляционными техниками, FFF имеет преимущества. Он сокращает время вывода, поскольку может получать доступ к определенным блокам нейронов за логарифмическое время. Это в отличие от линейного масштабирования ширины прямого слоя в ранее использовавшихся методах.

FFF был сравнен с подходом Mixture-of-Experts (MoE), который также использует блоки экспертов, но включает шумное воротное устройство. FFF избегает этого шума и достигает более быстрого вывода с сниженной вычислительной сложностью. Исследователи также отметили впечатляющие приросты скорости, достигнутые FFF. Он утверждает, что FFF может быть в 220 раз быстрее, чем традиционные прямые сети, что говорит о существенном улучшении вычислительной эффективности. В качестве примера было отмечено использование FFF в видео-трансформерах, утверждая, что FFF имеет потенциал для использования в видео-связанных задачах, поскольку он способен сохранять 94,2% производительности прогнозирования, используя только 1% нейронов.

В заключение, FFF — это действительно революционный метод для повышения вычислительной эффективности нейронных сетей. Он превосходит сети смеси экспертов и значительно сокращает время вывода по сравнению с обычными прямыми сетями. Также основными характеристиками обучения FFF являются безшумное условное выполнение и возможность достижения хорошей точности прогнозирования с использованием небольшого количества нейронов. Эти разработки имеют потенциал для ускорения и улучшения производительности огромных моделей, революционируя отрасль глубокого обучения.