Познакомьтесь с T2I-Adapter-SDXL Маленькими и эффективными моделями управления

Познакомьтесь с T2I-Adapter-SDXL - маленькими и эффективными моделями управления.

T2I-адаптеры – это подключаемые инструменты, которые улучшают модели текст-изображение без полной повторной тренировки, что делает их более эффективными по сравнению с альтернативами, такими как ControlNet. Они выравнивают внутренние знания с внешними сигналами для точного редактирования изображений. В отличие от ControlNet, который требует значительной вычислительной мощности и замедляет генерацию изображений, T2I-адаптеры запускаются только один раз в процессе удаления шума, что обеспечивает более быстрое и эффективное решение.

Параметры модели и требования к хранению дают ясное представление об этом преимуществе. Например, ControlNet-SDXL имеет 1251 миллион параметров и 2,5 ГБ памяти в формате fp16. В отличие от этого, T2I-Adapter-SDXL значительно сокращает параметры (79 миллионов) и объем памяти (158 МБ) с уменьшением соответственно 93,69% и 94%.

https://huggingface.co/blog/t2i-sdxl-adapters

Недавние совместные усилия между командой Diffusers и исследователями T2I-адаптеров привели к поддержке T2I-адаптеров в Stable Diffusion XL (SDXL). Это сотрудничество было направлено на тренировку T2I-адаптеров на базе SDXL “с нуля” и дало многообещающие результаты при различных факторах условий, включая эскиз, canny, контурное изображение, глубину и openpose.

Обучение T2I-Adapter-SDXL включало использование 3 миллионов пар высококачественных изображений-текст из LAION-Aesthetics V2 с настройками обучения, указывающими 20000-35000 шагов, размер пакета 128 (параллельные данные с размером пакета одного GPU 16), постоянную скорость обучения 1e-5 и смешанную точность (fp16). Эти настройки обеспечивают баланс скорости, эффективности использования памяти и качества изображения, делая их доступными для использования всем сообществом.

Использование T2I-Adapter-SDXL в рамках фреймворка Diffusers делается простым благодаря ряду шагов. Сначала пользователи должны установить необходимые зависимости, включая пакеты diffusers, controlnet_aux, transformers и accelerate. Затем процесс генерации изображений с помощью T2I-Adapter-SDXL в основном включает два шага: подготовку условных изображений в соответствующем контрольном формате и передачу этих изображений и подсказок в StableDiffusionXLAdapterPipeline.

На практике загружается адаптер Lineart, и на входное изображение выполняется детекция контуров. Затем инициируется генерация изображения с определенными подсказками и параметрами, что позволяет пользователям контролировать степень применяемого условия с помощью аргументов, таких как “adapter_conditioning_scale” и “adapter_conditioning_factor”.

В заключение, T2I-адаптеры предлагают убедительную альтернативу ControlNets, решая вычислительные проблемы тонкой настройки предварительно обученных моделей текст-изображение. Их уменьшенный размер, эффективная работа и простота интеграции делают их ценным инструментом для настройки и управления генерацией изображений в различных условиях, способствуя творчеству и инновациям в искусственном интеллекте.