Исследователи из Стэнфордского Университета предлагают DDBMs простое и масштабируемое расширение моделей диффузии, подходящее для проблем распределения перевода.

Простое и масштабируемое расширение моделей диффузии DDBMs, предложенное исследователями из Стэнфордского Университета, для проблем распределения перевода

Модели диффузии недавно получили большой успех и привлекли внимание в сообществе искусственного интеллекта. Относящиеся к семье генеративных моделей, эти модели могут эффективно обратить процесс диффузии, превращающий данные в шум, позволяя им понять сложные распределения данных. Этот метод стал прорывом в ряде генеративных задач, особенно в генерации изображений высокого качества, где он превзошел традиционные техники на основе GAN. Этот прогресс стал возможным благодаря разработке современных генеративных систем, преобразующих текст в изображение.

Модели диффузии проявили себя исключительно хорошо в некоторых областях, но не во всех. Их трудно применять в приложениях, таких как перевод изображений, где цель – отображение между парами изображений, поскольку они предполагают существование предварительно заданного распределения случайного шума. Часто для решения этой проблемы используются сложные методы, такие как обучение модели или ручная настройка подхода к выборке. Эти методы имеют слабую теоретическую базу и обычно поддерживают одностороннее отображение, обычно от поврежденного к чистому изображению, пренебрегая идеей цикличной согласованности.

В отличие от традиционной парадигмы модели диффузии команда исследователей предложила новую и уникальную стратегию, известную как “модели диффузии сжатия шума” (DDBMs). Диффузионные мосты – это класс процессов, плавно интерполирующих между двумя связанными распределениями, представляющими конечные точки, и DDBMs используют эту идею. DDBMs вычисляют оценку диффузионного моста непосредственно из данных, а не из случайного шума. Изученная оценка затем направляет модель в процессе решения стохастического дифференциального уравнения для отображения от одного распределения конечной точки к другому.

Возможность автоматического объединения нескольких видов генеративных моделей – одно из ключевых преимуществ DDBMs. Они легко комбинируют компоненты OT-Flow-Matching и моделей диффузии на основе оценки, позволяя адаптировать текущие разработки и архитектурные стратегии для решения более общей задачи.

Команда применила DDBMs к сложным наборам данных изображений для своего эмпирического анализа, учитывая модели на уровне пикселей и скрытого пространства. DDBMs значительно превосходят базовые подходы в стандартных задачах перевода изображений, демонстрируя их пригодность для решения сложных задач по изменению изображений. По показателям FID, команда оценивает конкурентоспособность результатов DDBMs по сравнению с последними достижениями в области техник создания изображений, упрощая проблему предположением о том, что исходное распределение является случайным шумом.

Это показывает, насколько адаптивными и надежными являются DDBMs в различных задачах генерации, даже когда они не специально разработаны для конкретных обстоятельств. В заключение, модели диффузии прекрасно справляются с разнообразными задачами генерации, но у них есть недостатки для работы, такой как перевод изображений. Предложенные DDBMs предлагают инновационное и масштабируемое решение, интегрирующее генерацию на основе диффузии и методы перевода распределений, повышая производительность и гибкость в решении сложных задач, связанных с изображениями.