Исследование искусственного интеллекта от Аризонского университета представляет ECLIPSE новую стратегию контрастного обучения для улучшения неизменного преобразования текста в изображение

Новая стратегия контрастного обучения ECLIPSE от Аризонского университета исследование искусственного интеллекта, направленная на улучшение преобразования текста в изображение

Модели распространения показали себя весьма успешными в создании фотографий высокого качества при наличии текстовых предложений. Этот подход к созданию текстовой информации в картину (T2I) был успешно использован в нескольких других приложениях, включая генерацию изображения на основе глубины и идентификацию объектов/сегментацию. Два популярных модели распространения, модели CLIP и модели латентного распространения (LDM), часто называемые устойчивым распространением, являются важными для этих разработок. LDM хорошо известен в исследовательских кругах, так как доступен как бесплатное программное обеспечение с открытым исходным кодом. У моделей unCLIP, напротив, было немного внимания. Основная цель обоих типов моделей – обучение моделей распространения на основе текстовых сигналов. 

В отличие от моделей unCLIP, которые включают предварительную обработку текста в изображение и распределение изображений модели распространения, у LDM есть только модель распространения текста в изображение. Обе семьи моделей работают в пространстве векторных квантизованных латентных представлений изображений. В связи с тем, что модели unCLIP часто превосходят другие модели в сравнительных оценках композиции, таких как T2I-CompBench и HRS-Benchmark, исследовательская команда сосредоточилась на них в этой статье. Подобные модели T2I, как правило, имеют много параметров и требуют отличных сочетаний изображений и текста для обучения. По сравнению с LDM, модели unCLIP, такие как DALL-E-2, Karlo и Kandinsky, обладают значительно большим общим размером модели (≥ 2B) из-за предыдущего модуля, который имеет около 1 миллиарда параметров. 

Для этих моделей unCLIP используются данные для обучения в количестве 250M, 115M и 177M пар изображений и текста. Таким образом, остаются два важных вопроса: 1) Улучшается ли SOTA-производительность с использованием текстовой предварительной обработки в композициях текста? 2) Или ключевым элементом является увеличение размера модели? Путем увеличения эффективности параметров и данных исследовательская команда стремится улучшить свои знания о предварительной обработке T2I и предложить значительные улучшения в сравнении с текущими формулировками. Предварительная обработка T2I, целью которой является прямая оценка безошибочного вложения изображения на каждом шаге процесса распространения, также является моделями распространения, как предлагается предыдущими исследованиями. Для изучения этого процесса распространения исследовательская команда провела эмпирическое исследование. 

Рисунок 1 сравнивает среднюю производительность трех композиционных задач (цвет, форма и текстура) и общее количество параметров у моделей SOTA текст-изображение. ECLIPSE требует меньше данных для обучения, но производит лучшие результаты с меньшим количеством параметров. Представленная модель ECLIPSE использует декодер Kandinsky для обучения предварительной модели T2I с примерно 33 миллионами параметров, используя только 5 миллионов пар изображений и текста.

Исследовательская команда обнаружила, что процесс распространения незначительно снижает производительность и не оказывает влияния на создание правильных изображений. Кроме того, обучение моделей распространения занимает значительное количество часов или дней работы графических процессоров из-за их медленной сходимости. В результате, модель без распространения служит заменой в данном исследовании. В связи с отсутствием свободного от классификатора руководства, данный метод может ограничивать композиционные возможности, но он значительно повышает эффективность параметров и снижает зависимость от данных. 

В данном исследовании исследовательская команда из Университета штата Аризона представляет уникальную методику контрастного обучения, называемую ECLIPSE, для улучшения предварительной модели T2I без использования распространения и преодоления вышеуказанных ограничений. Исследовательская команда усовершенствовала традиционный подход к созданию вложения изображения из предоставленного текстового вложения, оптимизируя нижнюю границу эффекта (ELBO). Исследовательская команда предлагает использовать семантическую согласованность (между текстом и изображением) моделей, предварительно обученных на основе зрения и языка, для надзора за ранним обучением. Исследовательская команда использует относительно небольшую часть примеров пар изображений и текста (0,34% – 8,69%) для обучения компактных (97% меньших) предварительных моделей без распространения (с 33 миллионами параметров), используя ECLIPSE. Исследовательская команда предлагает предварительные модели ECLIPSE для вариаций распространения изображений без клейма (Karlo и Kandinsky). Предварительно обученные модели ECLIPSE превосходят свои модели с 1 миллиардом параметров и превосходят базовые алгоритмы обучения предварительных моделей. Их результаты предлагают возможный путь для генеративных моделей T2I, которые улучшают композиционность без необходимости использования большого количества параметров или данных. 

Как показано на рис. 1, общий параметр и требования к данным значительно снижаются, и они достигают лучшей производительности по сравнению с аналогичными моделями с использованием T2I до семейных CLIP. Вклады. 1) В рамках неCLIP-фреймворка исследовательская команда представляет ECLIPSE – первую попытку использования контрастного обучения для преобразования текста в изображения. 2) Исследовательская команда доказала превосходство ECLIPSE над базовыми преобразованиями в условиях ограниченных ресурсов в результате всестороннего эксперимента. 3) Следует отметить, что для достижения производительности, эквивалентной более крупным моделям, для ECLIPSE требуется всего 2,8% тренировочных данных и 3,3% параметров модели. 4) Исследовательская команда также изучает недостатки текущих приоров диффузии T2I и предлагает эмпирические наблюдения.