Эта научная работа исследует понимание скрытого пространства моделей диффузии через риманову геометрию искусственного интеллекта.

В этой научной работе исследуется понимание скрытого пространства моделей диффузии через риманову геометрию и искусственный интеллект

С растущей популярностью искусственного интеллекта и машинного обучения его основные подобласти, такие как обработка естественного языка, генерация естественного языка и т.д., развиваются с быстрыми темпами. Недавнее введение, т.е. моделей диффузии (DM), продемонстрировало выдающиеся результаты в различных приложениях, включая редактирование изображений, обратные задачи и синтез текста в изображения. Хотя эти генеративные модели вызвали много положительных отзывов и добились успеха, остается мало знаний о их скрытом пространстве и о том, как оно влияет на получаемые результаты.

Хотя полностью диффузируемые изображения обычно рассматриваются как скрытые переменные, они неожиданно меняются при движении по определенным направлениям в скрытом пространстве, так как они не обладают необходимыми характеристиками для регулирования результатов. В недавних исследованиях была предложена идея промежуточного пространства признаков, представленных внутри ядра диффузии буквой H, которое служит семантическим скрытым пространством. Еще одно исследование касалось карт признаков операций перекрестного внимания или самовнимания, которые могут влиять на последующие задачи, такие как семантическая сегментация, улучшение качества выборки или управление результатом.

Несмотря на эти достижения, структуру пространства Xt, содержащего скрытые переменные {xt}, все еще предстоит исследовать. Это затруднено из-за особенностей обучения DM, которое отличается от обычного наблюдения, такого как классификация или сходство, в том, что модель предсказывает шум впереди независимо от ввода. Исследование усложняется также наличием нескольких скрытых переменных на нескольких рекурсивных временных шагах.

В недавнем исследовании команда исследователей рассмотрела пространство Xt вместе с соответствующим представлением H. Пулбэк-метрика из римановой геометрии – это способ, который команда предложила для интеграции локальной геометрии в Xt. Команда использовала геометрическую перспективу для анализа и использовала пулбэк-метрику, связанную с кодирующими картами признаков DM, чтобы получить локальные скрытые базисы внутри X.

Команда поделилась тем, что в ходе исследования было обнаружено важное локальное скрытое основание, необходимое для реализации функций изменения изображений. Для этого пространство скрытых переменных DM было изменено вдоль базисного вектора на предопределенных временных шагах. Это позволило обновлять изображения без необходимости дополнительного обучения, применяя изменения один раз на определенном временном шаге t.

Также команда оценила различия в различных текстовых ситуациях и развитие геометрической структуры DM во время временных шагов диффузии. Этот анализ подтвердил широко известное явление грубой-к-тонкой генерации, который также объясняет влияние сложности набора данных и изменяющегося со временем эффекта текстовых подсказок.

В заключение, эта работа является уникальной и первой, представляющей изменение изображений путем движения по пространству x, что позволяет редактировать изображения на определенных временных шагах без необходимости дополнительного обучения.