Знакомьтесь с DeepCache простым и эффективным алгоритмом ускорения для динамического сжатия моделей диффузии во время выполнения.

Встречайте DeepCache простой и эффективный алгоритм ускорения динамического сжатия моделей диффузии во время выполнения

Прогресс в искусственном интеллекте (AI) и глубоком обучении привел к большой перестройке взаимодействия людей с компьютерами. Вместе с внедрением моделей диффузии генеративное моделирование проявляет удивительные возможности в различных приложениях, включая генерацию текста, генерацию изображений, синтез звука и видеопроизводство.

Хотя модели диффузии продемонстрировали превосходную производительность, они часто имеют высокую вычислительную стоимость, связанную в основном с громоздким размером модели и последовательной процедурой денойзинга. Эти модели имеют очень низкую скорость вывода, и чтобы решить эту проблему, исследователи предприняли ряд усилий, включая уменьшение числа этапов выборки и снижение накладных расходов на вывод модели на каждом шаге с помощью таких техник, как сокращение модели, дистилляция и квантование.

Традиционные методы сжатия моделей диффузии обычно требуют большого количества повторного обучения, что создает практические и финансовые трудности. Чтобы преодолеть эти проблемы, команда исследователей представила DeepCache – новую и уникальную парадигму без обучения, которая оптимизирует архитектуру моделей диффузии для ускорения диффузии.

DeepCache использует временные избыточности, присущие последовательным стадиям денийзинга моделей диффузии. Причиной этой избыточности является то, что некоторые характеристики повторяются на последовательных этапах денийзинга. Это значительно уменьшает повторяющиеся вычисления, введя метод кэширования и извлечения для этих свойств. Команда отметила, что этот подход основан на свойстве U-Net, которое позволяет повторно использовать высокоуровневые характеристики при эффективном и экономичном обновлении низкоуровневых характеристик.

Творческий подход DeepCache обеспечивает значительное ускорение в 2,3 раза для Stable Diffusion v1.5, при незначительном снижении CLIP Score на 0,05. Он также продемонстрировал впечатляющее ускорение в 4,1 раза для LDM-4-G, хотя с потерей FID на ImageNet в размере 0,22.

Команда оценила DeepCache, и экспериментальные сравнения показали, что DeepCache работает лучше текущих методов обрезки и дистилляции, которые обычно требуют повторного обучения. Он также совместим с существующими методами выборки. Он проявил схожую или чуть лучшую производительность по сравнению с DDIM или PLMS с той же пропускной способностью, таким образом, максимизирует эффективность, не ущемляя качество полученных результатов.

Исследователи подводят следующие основные выводы.

  1. DeepCache хорошо работает с текущими быстрыми сэмплерами, демонстрируя возможность достижения схожих или даже лучших возможностей генерации.
  1. Он улучшает скорость генерации изображений без необходимости дополнительного обучения путем динамического сжатия моделей диффузии во время работы.
  1. DeepCache снижает повторные вычисления с помощью возможности кэширования при использовании временной согласованности в характеристиках высокого уровня.
  1. DeepCache повышает гибкость кэширования характеристик, вводя настраиваемую технику для продолжительных интервалов кэширования.
  1. DeepCache проявляет большую эффективность при использовании моделей DDPM, LDM и Stable Diffusion при тестировании на CIFAR, LSUN-Bedroom/Churches, ImageNet, COCO2017 и PartiPrompt.
  1. DeepCache работает лучше, чем алгоритмы обрезки и дистилляции, требующие повторного обучения, поддерживая свою более высокую эффективность

В заключение, DeepCache непременно представляет большие перспективы в качестве ускорителя моделей диффузии, предоставляя полезную и доступную альтернативу традиционным методам сжатия.