Эта статья искусственного интеллекта представляет DiffEnc продвижение моделей диффузии для повышения генеративной производительности

Инновационный подход DiffEnc улучшение производительности генеративных моделей с помощью искусственного интеллекта

Диффузионные модели – это мощные модели, которые являются примечательными в различных задачах генерации – изображения, речь, видео и музыка. Они позволяют достичь передовых результатов в создании изображений с превосходным визуальным качеством и оценкой плотности. Диффузионные модели определяют марковскую цепь диффузионных шагов, чтобы плавно добавлять случайный шум к изображениям, а затем научиться обратить процесс для генерации желаемых качественных изображений.

Диффузионные модели работают как иерархическая структура, с последовательно генерирующимися слоями скрытых переменных, где каждая переменная зависит от предыдущего шага. Архитектура диффузионных моделей имеет следующие ограничения:

  • Процесс введения шума в данные прямолинеен и фиксирован.
  • Каждый слой скрытых переменных зависит только от предыдущего шага.
  • Все шаги в модели используют одни и те же параметры.

Несмотря на ограничения, указанные выше, диффузионные модели являются высокомасштабируемыми и гибкими. В этой статье группа исследователей представила новую структуру, DiffEnf, чтобы дальнейшее увеличить гибкость без ущерба расширяемости.

В отличие от традиционного способа добавления шума, исследователи ввели зависящий от времени кодировщик, который параметризует среднее значение процесса диффузии. Кодировщик в основном предсказывает закодированное изображение в заданный момент времени. Кроме того, этот кодировщик используется только на этапе обучения и не используется в процессе выборки. Эти два свойства делают DiffEnc более гибким, чем традиционные диффузионные модели, не влияя на время выборки.

Для оценки исследователи сравнили различные версии DiffEnc с базовым VDM на двух популярных наборах данных: CIFAR-10 и MNIST. Модель DiffEnc-32-4 превосходит предыдущие работы и модель VDMv-32 по наболее низкому значению Битов на размерность (BPD). Это говорит о том, что кодировщик, хотя и не используется в процессе выборки, способствует лучшей генеративной модели без влияния на время выборки. Результаты также показывают, что разница в общей потере в основном обусловлена улучшением потери диффузии в DiffEnc-32-4, что подчеркивает полезную роль кодировщика в процессе диффузии.

Исследователи также отметили, что увеличение размера кодировщика не приводит к значительному улучшению средней потери диффузии по сравнению с VDM. Они предполагают, что для достижения значительных различий может потребоваться более длительное обучение, или более крупная модель диффузии может потребоваться для полного использования возможностей кодировщика.

Результаты показывают, что добавление зависящего от времени кодировщика может улучшить процесс диффузии. Несмотря на то, что кодировщик не увеличивает время выборки, процесс выборки все равно медленнее по сравнению с генеративными противоборствующими сетями (GANs). Тем не менее, несмотря на это ограничение, DiffEnc все еще улучшает гибкость диффузионных моделей и может достичь передовой правдоподобности на наборе данных CIFAR-10. Кроме того, исследователи предлагают, что эту структуру можно объединить с другими существующими методами, такими как латентная диффузия, направление дискриминатора и регуляризация согласованности, для улучшения изученных представлений, что потенциально открывает новые возможности для широкого спектра задач по генерации изображений.