В данном исследовании по искусственному интеллекту предлагается модель LayoutNUWA модель искусственного интеллекта, которая рассматривает генерацию макета как задачу генерации кода для улучшения семантической информации и использует скрытые экспертизы макета больших языковых моделей (LLM).

In this AI research, we propose the LayoutNUWA AI model that treats layout generation as a code generation task to enhance semantic information and utilizes hidden expertise from large language models (LLM).

С развитием LLM возрос интерес к исследованию всех аспектов LLM. Были проведены исследования графической компоновки. Графическая компоновка, или то, как располагаются и размещаются элементы дизайна, значительно влияет на взаимодействие пользователей и восприятие предоставленной информации. Новым направлением является генерация компоновки. Ее целью является предоставление различных реалистичных компоновок, которые упрощают разработку объектов.

Современные методы создания компоновки в основном осуществляют численную оптимизацию, сосредотачиваясь на количественных аспектах и игнорируя семантическую информацию компоновки, такую как связи между каждым компонентом компоновки. Однако, поскольку они в основном собирают количественные элементы компоновки, такие как позиции и размеры, и не учитывают семантическую информацию, такую как атрибут каждого числового значения, этому методу может потребоваться возможность выражать компоновки в виде числовых кортежей.

Поскольку компоновки содержат логические связи между своими элементами, языки программирования являются приемлемым вариантом для компоновок. Мы можем разработать организованную последовательность для описания каждой компоновки с использованием языков программирования. Эти языки программирования могут объединять логические концепции с информацией и значением, сокращая разрыв между существующими подходами и потребностью в более полном представлении.

В результате исследователи разработали LayoutNUWA. Эта первая модель рассматривает разработку компоновки как задачу генерации кода для улучшения семантической информации и использования скрытого опыта компоновки в крупных моделях языка (LLM).

Code Instruct Tuning (CIT) состоит из трех взаимосвязанных компонентов. Модуль Code Initialization (CI) количественно описывает числовые обстоятельства перед их преобразованием в HTML-код. Этот HTML-код содержит маски, размещенные в определенных местах, чтобы улучшить читаемость и связность компоновок. Во-вторых, для заполнения маскированных областей HTML-кода используется модуль Code Completion (CC), использующий ноу-хау форматирования крупных языков программирования (LLM). Для улучшения точности и согласованности сгенерированных компоновок используются LLM. Наконец, модуль Code Rendering (CR) преобразует код в конечный результат компоновки. Для улучшения точности и согласованности сгенерированных компоновок используются LLM.

Журнал, PubLayNet и RICO были тремя часто используемыми открытыми наборами данных для оценки производительности модели. Набор данных RICO, включающий около 66 000 компоновок пользовательского интерфейса и разделяющий их на 25 видов элементов, фокусируется на дизайне пользовательского интерфейса для мобильных приложений. С другой стороны, PubLayNet предоставляет большую библиотеку из более чем 360 000 компоновок в различных документах, разделенных на пять групп элементов. Набор данных журнала является низкоресурсным исследованием компоновки журнала и включает более 4 000 аннотированных компоновок, разделенных на шесть основных классов элементов. Все три набора данных были предварительно обработаны и настроены для обеспечения согласованности с помощью фреймворка LayoutDM. Для этого исходный набор данных для проверки был назначен в качестве набора для тестирования, компоновки с более чем 25 компонентами были отфильтрованы, и уточненный набор данных был разделен на обучающий и новый наборы данных для проверки, причем 95% набора данных было отнесено к первому, а 5% – ко второму.

Были проведены эксперименты с использованием кода и числовых представлений для тщательной оценки результатов модели. Была разработана задача Code Infilling специально для числового формата вывода. В этой задаче модели больших языковых моделей (LLM) предлагалось предсказать только скрытые значения в последовательности чисел, а не полную последовательность кода. Результаты показали, что производительность модели значительно снижается при генерации в числовом формате, а также увеличивается частота сбоев при попытках разработки модели. Например, в некоторых случаях этот метод давал повторяющиеся результаты. Уменьшение эффективности может быть объяснено тем, что задача условной генерации компоновки направлена на создание связных компоновок.

Исследователи также отметили, что если внимание уделяется только прогнозированию маскированных битов, могут быть получены отдельные и нелогичные числа. Кроме того, это тенденция может увеличить вероятность того, что модель не сможет сгенерировать данные, особенно при указании компоновок с более скрытыми значениями.