Исследователи Google AI и Тель-Авивского университета представляют рамку искусственного интеллекта, объединяющую модель диффузии текста в изображение с специализированной геометрией линз для рендеринга изображения.

Эксперты Google AI и Тель-Авивского университета представляют новый интеллектуальный инструмент модель диффузии текста в изображение с геометрией линз для рендеринга.

Последние достижения в области генерации изображений основаны на моделях диффузии большого масштаба, обученных на связанных текстовых и изображениях, которые включают разнообразные подходы для улучшения визуального контроля. Эти методы варьируются от явного задания условий модели до модификации предобученных архитектур для новых модальностей. Точная настройка моделей, использующих текстовые условия и извлеченные характеристики изображений, такие как глубина, позволяет восстановить изображение. Ранее исследователи представили сеть GAN с использованием информации о начальном разрешении для генерации изображений с различным разрешением и формой, сохраняющей форму.

Исследователи из Google Research и Тель-Авивского университета представляют модель искусственного интеллекта (AnyLens), объединяющую модель диффузии текста в изображения с специализированной геометрией объектива для рендеринга изображения. Это объединение позволяет точно контролировать геометрию рендеринга, облегчая создание разнообразных визуальных эффектов, таких как “рыбий глаз”, панорамные виды и сферическая текстура с использованием одной модели диффузии.

В данном исследовании решается задача включения различных оптических управлений в модели диффузии текста в изображения путем представления нового метода. Этот подход позволяет модели использовать условия локальной геометрии объектива, улучшая способность модели к воспроизведению сложных оптических эффектов для реалистичной генерации изображений. Кроме традиционных преобразований холста, данный метод позволяет осуществлять практически любое искажение сетки через условия координаты каждого пикселя. Эта инновация поддерживает различные приложения, включая генерацию панорамных сцен и текстурирование сферы. Она представляет собой модель генерации изображений, осознающую геометрию многообразия с использованием условий метрического тензора, расширяя возможности контроля и манипуляции генерацией изображений.

Исследование представляет собой фреймворк, объединяющий модель диффузии текста в изображения с конкретной геометрией объектива с использованием условия координаты каждого пикселя. В этом подходе настраивается предварительно обученная модель диффузии с использованием данных, сгенерированных за счет искажения изображений с помощью случайных полей искажения. Применяется перенормировка токенов в слоях само-внимания. Этот метод позволяет манипулировать свойствами кривизны, обеспечивая различные эффекты, такие как “рыбий глаз” и панорамные виды. Он превосходит фиксированное разрешение при генерации изображений и включает условия метрического тензора для улучшенного контроля. Фреймворк расширяет возможности манипуляции изображениями, решая проблемы, такие как генерация больших изображений и регулировка масштаба само-внимания в моделях диффузии.

Фреймворк успешно объединяет модель диффузии текста в изображения с конкретной геометрией объектива, обеспечивая различные визуальные эффекты, такие как “рыбий глаз”, панорамные виды и сферическая текстура с использованием одной модели. Он обеспечивает точный контроль над свойствами кривизны и геометрией рендеринга, что приводит к реалистической и тонкой генерации изображений. Обученный на большом наборе текстово-аннотированных данных и полей искажения пикселей, данный метод генерирует произвольные искаженные изображения с тонкими неразвороченными результатами, близкими к целевой геометрии. Он также помогает создавать сферические панорамы с реалистичными пропорциями и минимальным количеством артефактов.

В заключение, новый представленный фреймворк, включающий различные геометрии объектива в рендеринг изображений, обладает улучшенным контролем над свойствами кривизны и визуальными эффектами. С помощью условий координаты каждого пикселя и метрического тензора данный метод облегчает манипуляцию геометрией рендеринга, создавая очень реалистичные изображения с точными свойствами кривизны и искажения геометрии. Этот фреймворк способствует творчеству и контролю в синтезе изображений, делая его ценным инструментом для создания изображений высокого качества.

В дальнейшем предлагается преодолеть ограничения данного метода, исследуя передовые техники условий для усовершенствования разнообразной генерации изображений. Исследователи предлагают расширить подход для достижения результатов, подобных специализированным объективам для захвата отдельных сцен. Упоминая потенциальное использование более продвинутых техник условий, ожидается улучшение генерации изображений и расширение возможностей.