Исследователи KAIST предлагают SyncDiffusion модуль, подключаемый и воспроизводимый, который синхронизирует несколько процессов диффузии с помощью градиентного спуска от потерь перцептивной сходства.

Исследователи KAIST представляют модуль SyncDiffusion, обеспечивающий синхронизацию нескольких процессов диффузии через градиентный спуск на основе потерь восприятия сходства.

<img alt=”” src=”https://ai.miximages.com/www.marktechpost.com/wp-content/uploads/2023/10/Screenshot-2023-10-20-at-10.33.09-PM-1024×951.png”/><img alt=”” src=”https://ai.miximages.com/www.marktechpost.com/wp-content/uploads/2023/10/Screenshot-2023-10-20-at-10.33.09-PM-150×150.png”/><p>В недавней научной работе команда исследователей из KAIST представила SYNCDIFFUSION, прорывной модуль, который направлен на улучшение генерации панорамных изображений с использованием предварительно обученных моделей диффузии. Исследователи выявили значительную проблему в создании панорамных изображений, связанную прежде всего с наличием видимых швов при сшивке нескольких изображений фиксированного размера. Для решения этой проблемы они предложили SYNCDIFFUSION.</p><p>Создание панорамных изображений, с широкими, охватывающими видами, представляет сложности для моделей генерации изображений, так как обычно они обучены производить изображения фиксированного размера. При попытке генерации панорам методом простого склеивания нескольких изображений часто возникают видимые швы и несвязные композиции. Эта проблема стимулировала необходимость разработки новых методов безшовного смешивания изображений и поддержания общей связности.</p><p>Два распространенных метода для создания панорамных изображений – последовательная экстраполяция изображений и совместная диффузия. Первый заключается в генерации окончательной панорамы путем последовательного расширения заданного изображения, фиксируя перекрывающуюся область на каждом шаге. Однако этот метод часто сталкивается с трудностями в создании реалистичных панорам и часто вносит повторяющиеся узоры, что приводит к неидеальным результатам.</p><p>С другой стороны, совместная диффузия осуществляет обратный генеративный процесс одновременно по нескольким видам и усредняет промежуточные шумовые изображения в перекрывающихся областях. В то время как этот подход эффективно создает безшовные монтажи, он не поддерживает согласованность контента и стиля между видами. В результате он часто объединяет изображения с разным содержанием и стилем в одной панораме, что приводит к несвязным результатам.</p><p>Исследователи представили SYNCDIFFUSION как модуль, который синхронизирует множественные диффузии, используя градиентный спуск на основе потери сходства по восприятию. Критическое нововведение заключается в использовании предсказанных обработанных изображений на каждом этапе обработки для вычисления градиента потери по восприятию. Такой подход обеспечивает значимое руководство для создания связных монтажей, так как он гарантирует плавное смешение изображений, сохраняя при этом согласованность контента.</p><p>В результате серии экспериментов, в которых использовался SYNCDIFFUSION с моделью Stable Diffusion 2.0, исследователи обнаружили, что их метод значительно превзошел предыдущие техники. Проведенное пользовательское исследование показало значительное предпочтение SYNCDIFFUSION в размере 66,35%, по сравнению с предыдущим методом в размере 33,65%. Это значительное улучшение демонстрирует практические преимущества SYNCDIFFUSION при создании связных панорамных изображений.</p><p>SYNCDIFFUSION является значимым вкладом в область генерации изображений. Он эффективно решает проблему создания безшовных и связных панорамных изображений, которая является постоянной проблемой в данной области. Синхронизируя множество диффузий и применяя градиентный спуск от потери сходства по восприятию, SYNCDIFFUSION улучшает качество и связность созданных панорам. В результате он предлагает ценный инструмент для широкого спектра приложений, связанных с созданием панорамных изображений, и демонстрирует потенциал использования градиентного спуска для улучшения процессов генерации изображений.</p>