Познакомьтесь с InstaFlow новой генеративной моделью искусственного интеллекта, полученной из открытого исходного кода StableDiffusion (SD).

InstaFlow - новая генеративная модель искусственного интеллекта, основанная на StableDiffusion (SD) - открытом исходном коде.

Модели диффузии принесли революцию в генерацию текста в изображение, предлагая замечательное качество и творчество. Однако стоит отметить, что их многошаговая процедура сэмплирования признана за ее медлительность, часто требующую множества шагов вывода для достижения желаемых результатов. В этой статье авторы представляют инновационную одношаговую генеративную модель, основанную на модели Stable Diffusion (SD) с открытым исходным кодом.

Они обнаружили, что простая попытка дистилляции SD привела к полному провалу из-за серьезной проблемы: неоптимальной связи шума и изображений, что значительно затруднило процесс дистилляции. Чтобы преодолеть этот вызов, исследователи обратились к Rectified Flow, недавнему прогрессу в генеративных моделях, которые включают вероятностные потоки. Rectified Flow включает уникальную технику, называемую рефлоу, которая постепенно выпрямляет траекторию потока вероятностей.

Это, в свою очередь, снижает транспортные затраты между распределением шума и распределением изображений. Это улучшение связи существенно облегчает процесс дистилляции, решая исходную проблему. Вышеуказанное изображение демонстрирует работу Instaflow.

Использование одношагового генератора текста в изображение на основе диффузии подтверждается показателем FID (Fréchet Inception Distance) 23.3 на наборе данных MS COCO 2017-5k, что представляет существенное улучшение по сравнению с предыдущей передовой техникой, известной как прогрессивная дистилляция (37.2 → 23.3 в FID). Более того, путем использования расширенной сети с 1,7 миллиардами параметров исследователи смогли еще больше улучшить FID, достигнув показателя 22.4. Эта одношаговая модель называется “InstaFlow”.

На наборе данных MS COCO 2014-30k InstaFlow демонстрирует исключительную производительность с показателем FID 13.1 всего за 0.09 секунды, что делает его лучшим в категории ≤ 0.1 секунды. Это превосходит недавнюю модель StyleGAN-T (13.9 за 0.1 секунды). Отметим, что обучение InstaFlow осуществляется с относительно низкой вычислительной стоимостью всего 199 дней работы A100 GPU.

На основе этих результатов исследователи предложили следующие вклады:

  • Улучшение одношагового SD: Обучение модели 2-Rectified Flow не полностью сходится, требуя 75.2 дней работы A100 GPU. Это лишь часть стоимости обучения исходного SD (6250 дней работы A100 GPU). Увеличив размер набора данных, размер модели и продолжительность обучения, исследователи считают, что производительность одношагового SD значительно улучшится.
  • Одношаговый ControlNet: Применяя нашу платформу к обучению моделей ControlNet, можно получить одношаговые ControlNet, способные генерировать управляемый контент в пределах миллисекунд.
  • Персонализация для одношаговых моделей: Путем настройки SD с целевой функцией обучения моделей диффузии и LORA пользователи могут настроить предварительно обученный SD для генерации специфического контента и стилей.
  • Структура нейронных сетей для одношаговой генерации: С развитием создания одношаговых моделей SD с использованием текстово-условного рефлоу и дистилляции возникают несколько интересных направлений:

(1) исследование альтернативных одношаговых структур, таких как успешные архитектуры, используемые в GAN-ах, которые потенциально могут превзойти U-Net по качеству и эффективности;

(2) использование таких техник, как обрезка, квантизация и другие подходы для построения эффективных нейронных сетей, чтобы сделать одношаговую генерацию более доступной с вычислительной точки зрения, минимизируя потенциальное снижение качества.