Исследователи из Пекинского университета и Microsoft представляют COLE эффективный иерархический фреймворк для создания высококачественного графического дизайна из простого намерения

COLE инновационный иерархический фреймворк от Пекинского университета и Microsoft для создания высококачественного графического дизайна из простых идей

“`html

Производство естественного изображения теперь находится на одном уровне с профессиональной фотографией благодаря заметному недавнему улучшению качества. За этот прогресс отвечают создающие технологии, такие как DALL·E3, SDXL и Imagen. Ключевыми элементами, побуждающими этот прогресс, являются использование мощной языковой модели в качестве текстового кодировщика, масштабирование наборов данных для обучения, повышение сложности модели, более эффективный дизайн стратегии эскизов и улучшение качества данных. Исследовательская команда считает, что сейчас настал подходящий момент, чтобы сосредоточиться на развитии более профессионального изображения, особенно в графическом дизайне, учитывая его важные функции в брендинге, маркетинге и рекламе.

В качестве профессиональной области деятельности графический дизайн использует силу визуальной коммуникации для передачи ясно определенных сообщений определенным социальным группам. Это область, требующая воображения, изобретательности и быстрой мысли. В графическом дизайне текст и изображения обычно сочетаются с помощью цифровых или ручных методов для создания визуально привлекательных историй. Его основная цель – организовать данные, давать смысл концепциям и придавать выражение и эмоцию объектам, которые описывают человеческие опыты. Креативное использование шрифтов, расположения текста, украшений и изображений в графическом дизайне часто позволяет выразить идеи, чувства и отношения, не выраженные только словами. Создание высококлассных дизайнов требует высокого уровня воображения, изобретательности и нетрадиционного мышления.

Согласно текущему исследованию, прорывной системе DALL·E3 присущи удивительные навыки создания высококачественных дизайнерских изображений, отличающихся визуально потрясающими композициями и графикой, как показано на рисунке 1. Однако эти изображения имеют свои недостатки. Их текущие трудности включают неправильно отображаемый визуальный текст, который часто пропускает или добавляет дополнительные символы (что также отмечено в ). Кроме того, поскольку созданные изображения по сути нередактируемы, для их изменения требуются сложные процедуры, такие как сегментация, ликвидация и заполнение. Значительным ограничением также является требование предоставления пользователями полной текстовой подсказки. Создание хороших подсказок для создания визуальных дизайнов обычно требует высокого уровня профессионализма.

Рисунок 1 использует DESIGNERINTENTION для иллюстрации дизайнерских изображений, созданных DALL·E3 (дополненных GPT-4).

Как показано на рисунке 2, в отличие от DALL·E3, их система COLE может создавать изображения графического дизайна отличного качества с минимальными требованиями для пользовательских целей. По мнению исследовательской группы, эти три ограничения серьезно влияют на качество изображений графического дизайна. Идеальная система генерации визуального дизайна высокого качества и масштабируемости должна предоставлять гибкую область редактирования, создавать точную и высококачественную типографическую информацию для различных целей и требовать минимальных усилий от пользователей. Пользователи могут использовать профессиональные навыки по мере необходимости для дальнейшего улучшения результата. Цель данного усилия – создание стабильной и эффективной автономной системы текст-в-дизайн, способной создавать отличные изображения графического дизайна по интенции пользователя.

Рисунок 2: Визуальное представление изображений, созданных системой COLE, показано выше. Интересно, что единственные входные данные, которые принимает наша система, – это текстовое описание намерений. Остальные элементы – текст, дизайн графики и связанные свойства типографии, такие как тип шрифта, размер и положение – все независимо создаются интеллектуальной системой.

“`

Исследовательская команда из Microsoft Research Asia и Пекинского университета предлагает COLE, иерархический подход к упрощению сложного процесса создания графических дизайнерских изображений. В этом процессе задействовано несколько специализированных моделей генерации, каждая из которых предназначена для решения определенной подзадачи.

Прежде всего, акцент делается на креативном дизайне и интерпретации, преимущественно в понимании намерений. Это достигается с использованием передовых LLM, а именно Llama2-13B, и их оптимизацией с использованием большого набора данных, содержащего почти 100 000 отобранных пар “намерение-JSON”. В JSON-файл включается важная информация, связанная с дизайном, включая текстовые описания, подписи к предметам и подписи к фону. Исследовательская команда также предлагает дополнительные параметры для других целей, таких как расположение объекта.

Во-вторых, делается упор на оформление и улучшение визуальных компонентов, включая две подзадачи: создание визуальных элементов и типографических особенностей. Создание различных визуальных компонентов требует точной настройки специализированных моделей каскадного диффузии, таких как DeepFloyd/IF. Эти модели созданы таким образом, чтобы гарантировать плавный переход между компонентами, такими как слоистые изображения объектов и украшенный фон. Затем исследовательская команда предсказывает файл типографии JSON с использованием типографической модели Large Multimodal Model (LMM), построенной с использованием LLaVA-1.5-13B. Для этого используется предсказанный JSON-файл из Design LLM, проецируемое изображение фона из модели диффузии и ожидаемое изображение объекта из модели каскадной диффузии. Визуальный рендерер затем собирает эти компоненты с использованием макета, найденного в предварительно определенном JSON-файле.

В-третьих, в конце процесса предоставляется контроль качества и комментарии для улучшения общего качества дизайна. Особое внимание уделяется настройке модели Reflection LMM, а для всестороннего анализа качества используется GPT-4V(ision). На этом последнем этапе проще вносить изменения в JSON-файл по мере необходимости, включая изменение размеров и положения текстового блока. Наконец, исследовательская команда создала DESIGNERINTENTION, включающую примерно 200 профессиональных промптов для графического дизайна, охватывающих различные категории, а также около 20 творческих промптов, чтобы оценить возможности системы. Затем они сравнили свой подход с современной системой генерации изображений, провели исчерпывающие абляционные эксперименты для каждой модели генерации по разным подзадачам, предоставили полный анализ графических дизайнов, созданных их системой, а также обсудили недостатки и потенциальные будущие направления развития генерации графических дизайнерских изображений.