Исследователи из Stanford и Salesforce AI представляют UniControl Унифицированную модель распространения для расширенного контроля в генерации искусственного интеллекта изображений.

Ученые из Stanford и Salesforce AI представляют UniControl - Универсальную модель распространения для расширенного контроля в генерации искусственного интеллекта изображений.

Генеративные основные модели – это класс моделей искусственного интеллекта, разработанных для генерации новых данных, похожих на определенный тип входных данных, на которых они были обучены. Эти модели часто применяются в различных областях, включая обработку естественного языка, компьютерное зрение, генерацию музыки и т. д. Они изучают основные закономерности и структуры обучающих данных и используют этот опыт для генерации новых, подобных данных.

Генеративные основные модели имеют разнообразные применения, включая синтез изображений, генерацию текста, рекомендательные системы, поиск лекарств и многое другое. Они постоянно развиваются, и исследователи работают над улучшением их возможностей в генерации, таких как генерация более разнообразных и качественных результатов, улучшение контроля и понимание этических аспектов, связанных с их использованием.

Исследователи из Стэнфордского университета, Северо-восточного университета и исследовательского отдела Salesforce AI создали UniControl. Это единая модель диффузии для контролируемой визуальной генерации на основе естественных фотографий, способная одновременно работать с языком и различными визуальными условиями. UniControl может выполнять многозадачность и кодировать визуальные условия из разных задач в единое пространство представления, стремясь к общей структуре между задачами. UniControl способен обработать широкий спектр визуальных условий из других задач и языкового подсказки.

UniControl предлагает создание изображений с пиксельной точностью, где визуальные элементы главным образом формируют итоговые изображения, а языковые подсказки направляют стиль и контекст. Для улучшения способности UniControl управлять различными визуальными сценариями исследовательская команда расширила предварительно обученные модели диффузии текста в изображение. Кроме того, они внедрили гиперсеть, осознающую задачи, которая настраивает модели диффузии, позволяя им адаптироваться к нескольким задачам по генерации изображений на основе разных визуальных условий одновременно.

Их модель продемонстрировала более тонкое понимание трехмерного геометрического руководства для глубинных карт и поверхностных нормалей, чем ControlNet. Глубина карты создает визуально более точные результаты. Во время сегментации, openpose и задач связанных с ограничениями объекта, изображения, полученные их моделью, лучше соответствуют данным условиям, чем у ControlNet, обеспечивая большую точность по отношению к входным подсказкам. Экспериментальные результаты показывают, что UniControl часто превосходит производительность однозадачных методов сравнимого размера модели.

UniControl объединяет различные визуальные условия ControlNet и способен выполнять обучение без примеров на новых, ранее не встречавшихся задачах. В настоящее время UniControl принимает только одно визуальное условие, сохраняя при этом возможность многозадачности и обучения без примеров. Это подчеркивает его универсальность и потенциал для широкого применения на практике.

Однако их модель все еще ограничена диффузионными моделями генерации изображений. Она ограничена обучающими данными исследователей, которые были получены из подмножества наборов данных Laion-Aesthetics. Их набор данных смещен в сторону определенного типа данных. UniControl мог бы улучшиться, если были доступны лучшие наборы данных с открытым исходным кодом, чтобы предотвратить создание предвзятого, токсичного, сексуализированного или другого вредного контента.