Исследователи из MIT и Adobe представляют Distribution Matching Distillation (DMD) метод искусственного интеллекта для превращения модели диффузии в генератор изображений одним шагом.

Метод искусственного интеллекта Distribution Matching Distillation (DMD) от MIT и Adobe превращение модели диффузии в генератор изображений за один шаг

С постоянным процессом обучения модели диффузии революционизируют производство изображений, достигая ранее невиданных уровней разнообразия и реализма. Но в отличие от сетей GAN и VAE их выборка является трудоемким и итеративным процессом, который постепенно уменьшает шум в образце гауссового шума для создания сложного изображения путем прогрессивного снижения шума. Это ограничивает взаимодействие при использовании процесса генерации в качестве творческого инструмента, обычно требуя десятки и сотни дорогостоящих оценок нейронных сетей. В предыдущих методиках шум→изображение, найденное путем многопроходной дифузионной выборки, сжимается в однопроходную учебную сеть для ускорения процесса выборки. Построение такого высокомерного и сложного отображения в высоких измерениях безусловно является трудной задачей.

Одной из нерешенных проблем является высокая стоимость запуска всей траектории подавления шума для модели-ученика, чтобы вычислить одну потерю. Нынешние методы уменьшают это путем постепенного расширения пробного расстояния ученика без повторения исходного цикла подавления шума. Однако исходная модель многопроходной диффузии работает лучше, чем упрощенные версии. В то же время, научно-исследовательская команда настаивает на том, что сгенерированные учеником изображения выглядят идентично исходной модели диффузии, а не требуют соответствия между шумом и диффузионно-сгенерированными изображениями. В целом, логика их цели аналогична другим генеративным моделям, соответствующим распределением, таким как GMMN или GAN.

Однако масштабирование модели на основные текстово-графические данные оказалось затруднительным, несмотря на их замечательную производительность в создании реалистичной графики. Научно-исследовательская команда избегает этой проблемы в своей работе, начиная с модели диффузии, которая уже обширно обучается на данных текст-изображение. Чтобы узнать как распределение данных, так и сгенерированное вымышленное распределение, научно-исследовательская команда специально донастраивает предварительно обученную модель диффузии. Они могут интерпретировать обработанный результат диффузии как градиентные направления для создания “более реалистичного” изображения или, если модель диффузии обучена на ложных изображениях, “более фальшивого”, так как модели диффузии известно приближают функции оценки для диффузионного распределения.

В конечном счете, обновленное правило градиента генератора создается как разница между двумя, толкая искусственные изображения к большей реалистичности и меньшей поддельности. Оптимизация трехмерных объектов во время тестирования также может быть достигнута с использованием предварительно обученной модели диффузии, моделирующей реальное и фальшивое распределения, как это было показано в предыдущих работах с использованием техники Variational Score Distillation. Научно-исследовательская команда открывает, что всю генеративную модель можно обучить, используя аналогичную методологию. Кроме того, научно-исследовательская команда приходит к выводу, что при наличии потери соответствия распределению, можно предварительно вычислить малое количество исходных результатов многопроходной диффузионной выборки, и внедрение простой регрессионной потери к их одноэтапному созданию может служить эффективным регуляризатором.

Исследователи из MIT и Adobe Research предлагают Distribution Matching Distillation (DMD), процесс, который преобразует модель диффузии в генератор изображений с одноэтапным процессом и незначительным воздействием на качество изображений. Их подход, который черпает вдохновение и идеи из VSD, GAN и pix2pix, демонстрирует, как команда исследователей может обучить генеративную модель с высокой достоверностью, используя модели диффузии для моделирования реальных и фальшивых распределений и сопоставления результатов многопроходной диффузии с помощью простой регрессионной потери. Команда исследователей оценивает модели, обученные с использованием методики Distribution Matching Distillation (DMD) для ряда задач, таких как создание текст-изображение “без обучения” на MS COCO 512×512 и генерация изображений на CIFAR-10 и ImageNet 64×64. Их одноэтапный генератор производит гораздо лучшие результаты, чем известные методы многопроходной диффузии на всех тестовых заданиях, включая Consistency Models, Progressive Distillation и Rectified Flow.

DMD достигает FID величиной 2,62 на ImageNet, превосходя Consistency Model в 2,4 раза. DMD получает конкурентный FID величиной 11,49 на MS-COCO 2014-30k с использованием той же архитектуры шумоподавляющего устройства, что и стабильная модель диффузии. Их квантитативный и качественный анализ демонстрирует, что изображения, созданные их моделью, имеют высокое качество, сравнимое с изображениями, созданными более дорогой моделью стабильной диффузии. Особенно стоит отметить, что их метод сокращает количество оценок нейронной сети в 100 раз, сохраняя при этом такой уровень визуального качества. Благодаря своей эффективности, DMD может создавать изображения размером 512 × 512 при 20 кадрах в секунду при использовании FP16-вывода, что открывает множество возможностей для интерактивных приложений.