Познакомьтесь с PIXART-α моделью T2I Diffusion на основе трансформатора, качество создания изображений которой конкурентно с передовыми генераторами изображений.

Освойте модель PIXART-α T2I Diffusion, основанную на трансформаторе, со способностью создавать изображения высокого качества, конкурентоспособные с передовыми генераторами изображений.

Новая эра фотореалистического синтеза изображений только что началась благодаря разработке генеративных моделей текста в изображение (T2I), таких как DALLE 2, Imagen и Stable Diffusion. Это значительно влияет на множество последующих применений, включая редактирование изображений, производство видео, создание 3D-моделей и т. д. Однако такие сложные модели требуют значительной вычислительной мощности для обучения. Например, обучение SDv1.5 требует 6 тысяч дней работы A100 GPU и стоит около 320 000 долларов. Более новая и большая модель, RAPHAEL, требует даже 60 тысяч дней работы A100 GPU и стоит около 3 080 000 долларов. Кроме того, обучение приводит к значительным выбросам CO2, негативно влияющим на окружающую среду; например, при обучении RAPHAEL производится 35 тонн выбросов CO2, сопоставимых с выбросами, которые один человек создает за 7 лет, как показано на рисунке 1.

Рисунок 1: Здесь показаны сравнения выбросов CO2 и затрат на обучение между производителями T2I. За обучение PIXART-α тратится значительная сумма в 26 000 долларов. Наши выбросы CO2 и затраты на обучение меньше только на 1,1% и 0,85% по сравнению с RAPHAEL.

Такая высокая цена создает серьезные ограничения для получения таких моделей как для научного сообщества, так и для бизнеса, что значительно затрудняет прогресс в области искусственного интеллекта и глубокого обучения. Возникает важный вопрос относительно этих проблем: можно ли создать генератор высококачественных изображений с управляемым использованием ресурсов? Исследователи из Huawei Noah’s Ark Lab, Dalian University of Technology, HKU и HKUST представляют PIXART-α, который значительно снижает требования к вычислительным ресурсам для обучения, сохраняя конкурентоспособное качество генерируемых изображений по сравнению с новейшими генераторами изображений. Они предлагают три основных конструкции для этого: разбиение плана обучения. Они разбивают сложную задачу создания текста в изображение на три простых подзадачи:

  1. Изучение распределения пикселей в естественных изображениях
  2. Изучение соответствия текста и изображения
  3. Улучшение эстетического качества изображений

Они предлагают значительно снизить стоимость обучения для первой подзадачи, инициализировав модель T2I недорогой классифицирующей моделью. Они предоставляют парадигму обучения, состоящую из предварительного обучения и настройки для второй и третьей подзадач: предварительное обучение на данных текст-изображение с высокой информационной плотностью, затем настройка на данных с более высоким эстетическим качеством для повышения эффективности обучения. Продуктивный T2I-трансформатор. Они используют кросс-внимание модулей для введения текстовых условий и упрощения вычислительно требовательной классифицирующей ветви для повышения эффективности на основе Diffusion Transformer (DiT). В дополнение к этому они представляют метод репараметризации, который позволяет модифицированной модели текст в изображение импортировать параметры оригинальной классифицирующей модели напрямую.

Таким образом, они могут использовать прошлые знания ImageNet о распределении естественных изображений для предоставления T2I-трансформатору приемлемой инициализации и ускорения его обучения. Информация высокого качества. Их исследование показывает значительные недостатки существующих наборов данных текст-изображение, приводя LAION как пример. Текстовые подписи часто страдают от серьезного длинного хвоста (т. е. много существительных, которые появляются с крайне низкими частотами) и недостатка информативного содержания (т. е. обычно описывают только часть объектов на изображениях). Эти недостатки значительно снижают эффективность обучения модели T2I и требуют миллионов итераций для надежного соответствия текст-изображение. Они предлагают автоматическую разметку данных с использованием наиболее продвинутой модели визионно-языковой модели для создания подписей на основе SAM, чтобы преодолеть эти проблемы.

Набор данных SAM имеет преимущество в том, что он содержит большую и разнообразную коллекцию объектов, что делает его идеальным источником для создания пар текст-изображение с высокой информационной плотностью, которые лучше подходят для обучения соответствия текст-изображение. Их умные функции позволяют их модели обучаться очень эффективно, используя всего 675 дней работы A100 GPU и 26 000 долларов. На рисунке 1 показано, как их подход использует меньший объем данных обучения (0,2% по сравнению с Imagen) и меньшее время обучения (2% по сравнению с RAPHAEL) по сравнению с Imagen. Их затраты на обучение составляют около 1% от затрат на обучение RAPHAEL, что позволяет им сэкономить около 3 000 000 долларов (26 000 долларов против 3 080 000 долларов).

В отношении качества генерации исследования пользователя показывают, что PIXART-α предлагает лучшее качество изображения и семантическую выравнивание по сравнению с текущими моделями SOTA T2I, Stable Diffusion и т.д.; более того, его производительность на T2I-CompBench демонстрирует его преимущество в семантическом управлении. Они ожидают, что их усилия по эффективному тренированию моделей T2I предоставят сообществу AIGC полезные идеи и помогут большему числу независимых академиков или компаний в производстве их собственных высококачественных моделей T2I по более доступным ценам.