Исследователи из Meta AI представляют Style Tailoring рецепт преобразования текста в наклейки для точной настройки моделей скрытого распространения (LDM) в отдельной области с высоким качеством визуального представления

Meta AI разработала Style Tailoring рецепт превращения текста в наклейки для точной настройки моделей скрытого распространения (LDM) с высоким качеством визуального представления в отдельной области

Команда исследователей из GenAI, Meta, представляет Style Tailoring – метод доводки моделей преобразования латентных диффузионных моделей (LDM) для генерации стикеров, для улучшения визуального качества, соответствия запросу и разнообразия сцен. Начиная с модели текст-изображение, такой как Emu, их исследование выявило, что полагаться на быструю инженеризацию с фотореалистической моделью приводит к плохому соответствию и ограниченному разнообразию в генерации стикеров. Style Tailoring включает:

  • Доводку изображений в форме стикеров.
  • Наборы данных с человеком в процессе для соответствия запросу и стилю.
  • Разрешение торговых офферт.
  • Совместное приближение содержимого и стилевых распределений.

Исследование рассматривает прогресс в генерации текст-изображение, акцентируя внимание на использовании LDM. В предшествующих исследованиях исследуются различные стратегии доводки, включая согласование предварительно обученных моделей диффузии с определенными стилями и изображениями, предоставленными пользователем для операций в задаче, связанных с подлетом. Решается проблема соответствия запросу и моде через максимизацию взвешенного правдоподобия и обучение модели ImageReward с использованием выбора человека. Style Tailoring нацелен на балансировку торговой офферты между соответствием запросу и верности текста без дополнительной задержки при выводе.

Исследование исследует преимущества моделей на основе диффузии в задачах генерации текст-изображение, акцентируя внимание на их способности к генерации изображений высокого качества по описанию естественного языка. Решается проблема соответствия между запросом и стилем в процессе доводки LDM для задачи текст-изображение. Внедрение метода Style Tailoring нацелено на оптимизацию быстрой соответственности, визуального разнообразия и соответствия технике для генерации эстетически привлекательных стикеров. Подход включает многоэтапную доводку с слабо согласованными изображениями, этапами работы с участием человека и экспертами. Он также акцентирует важность прозрачности и многообразия сцены в сгенерированных стикерах.

Подход предлагает многоэтапную доводку для генерации стикеров из текста, включая выравнивание домена, выравнивание с участием человека для улучшения соответствия запросу и выравнивание с участием экспертов для усиления стиля. Для выравнивания домена используются слабо контролируемые изображения в форме стикеров. Предложенный метод Style Tailoring совместно оптимизирует содержимое и стилевое распределение, достигая баланса между соответствием запросу и моде. Оценка включает анализ с помощью человеческих оценок и метрик, сосредоточенных на визуальном качестве, быстрой соответственности, соответствии стилю и многообразии сцены в сгенерированных стикерах.

Метод Style Tailoring значительно улучшает генерацию стикеров, повышая визуальное качество на 14%, соответствие запросу на 16,2% и разнообразие сцен на 15,3%, превосходя быструю инженеризацию с базовой моделью Emu. Он обладает обобщающей способностью в различных графических стилях. Оценка включает человеческие оценки и метрики, такие как дистанция Фреше ДИНО и LPIPS для соответствия стилю и многообразии сцены. Сравнение с базовыми моделями демонстрирует эффективность метода, устанавливая его превосходство по основным метрикам оценки.

Исследование признает ограничения в соответствии запросу и разнообразии сцены при полагании на быструю инженеризацию с фотореалистической моделью для генерации стикеров. Style Tailoring улучшает соответствие запросу и стилю, однако балансирование торговой офферты остается сложной задачей. Внедрение метода нацелено на стикеры и ограничено исследованием обобщаемости к другим областям. Расширение на более масштабные модели, комплексное сравнение, ограничения набора данных и этические соображения отмечены как области для дальнейших исследований. Это позволит получить более обширные оценки и обсуждения более широких применений и потенциальных предвзятостей в генерации текст-изображение.

В заключение, метод Style Tailoring эффективно улучшает визуальное качество, соответствие запросу и разнообразие сцены в сгенерированных стикерах с использованием LDM. Он превосходит ограничения быстрой инженеризации с фотореалистической моделью, улучшая указанные характеристики на 14%, 16,2% и 15,3% соответственно по сравнению с базовой моделью Emu. Этот метод применим в различных стилях и обладает низкой задержкой. Он акцентирует важность последовательности стратегических преобразований для достижения оптимальных результатов.