Исследователи из Стэнфордского Университета предлагают DDBMs простое и масштабируемое расширение моделей диффузии, подходящее для проблем распределения перевода.
Простое и масштабируемое расширение моделей диффузии DDBMs, предложенное исследователями из Стэнфордского Университета, для проблем распределения перевода
Модели диффузии недавно получили большой успех и привлекли внимание в сообществе искусственного интеллекта. Относящиеся к семье генеративных моделей, эти модели могут эффективно обратить процесс диффузии, превращающий данные в шум, позволяя им понять сложные распределения данных. Этот метод стал прорывом в ряде генеративных задач, особенно в генерации изображений высокого качества, где он превзошел традиционные техники на основе GAN. Этот прогресс стал возможным благодаря разработке современных генеративных систем, преобразующих текст в изображение.
Модели диффузии проявили себя исключительно хорошо в некоторых областях, но не во всех. Их трудно применять в приложениях, таких как перевод изображений, где цель – отображение между парами изображений, поскольку они предполагают существование предварительно заданного распределения случайного шума. Часто для решения этой проблемы используются сложные методы, такие как обучение модели или ручная настройка подхода к выборке. Эти методы имеют слабую теоретическую базу и обычно поддерживают одностороннее отображение, обычно от поврежденного к чистому изображению, пренебрегая идеей цикличной согласованности.
В отличие от традиционной парадигмы модели диффузии команда исследователей предложила новую и уникальную стратегию, известную как “модели диффузии сжатия шума” (DDBMs). Диффузионные мосты – это класс процессов, плавно интерполирующих между двумя связанными распределениями, представляющими конечные точки, и DDBMs используют эту идею. DDBMs вычисляют оценку диффузионного моста непосредственно из данных, а не из случайного шума. Изученная оценка затем направляет модель в процессе решения стохастического дифференциального уравнения для отображения от одного распределения конечной точки к другому.
- «Это исследование ИИ предлагает Kosmos-G искусственную модель интеллекта, которая выполняет высококачественную генерацию изображений нулевого шага из обобщенного визионно-языкового ввода, используя свойства мультимодельных LLM»
- Это исследование AI раскрывает ‘Кандинский1’ новый подход в генерации текста в изображение с использованием скрытой диффузии с выдающимися оценками FID на COCO-30K
- Возьмите руль NVIDIA NeMo SteerLM позволяет компаниям настроить ответы модели во время вывода
Возможность автоматического объединения нескольких видов генеративных моделей – одно из ключевых преимуществ DDBMs. Они легко комбинируют компоненты OT-Flow-Matching и моделей диффузии на основе оценки, позволяя адаптировать текущие разработки и архитектурные стратегии для решения более общей задачи.
Команда применила DDBMs к сложным наборам данных изображений для своего эмпирического анализа, учитывая модели на уровне пикселей и скрытого пространства. DDBMs значительно превосходят базовые подходы в стандартных задачах перевода изображений, демонстрируя их пригодность для решения сложных задач по изменению изображений. По показателям FID, команда оценивает конкурентоспособность результатов DDBMs по сравнению с последними достижениями в области техник создания изображений, упрощая проблему предположением о том, что исходное распределение является случайным шумом.
Это показывает, насколько адаптивными и надежными являются DDBMs в различных задачах генерации, даже когда они не специально разработаны для конкретных обстоятельств. В заключение, модели диффузии прекрасно справляются с разнообразными задачами генерации, но у них есть недостатки для работы, такой как перевод изображений. Предложенные DDBMs предлагают инновационное и масштабируемое решение, интегрирующее генерацию на основе диффузии и методы перевода распределений, повышая производительность и гибкость в решении сложных задач, связанных с изображениями.