Познакомьтесь с T2I-Adapter-SDXL Маленькими и эффективными моделями управления
Познакомьтесь с T2I-Adapter-SDXL - маленькими и эффективными моделями управления.
T2I-адаптеры – это подключаемые инструменты, которые улучшают модели текст-изображение без полной повторной тренировки, что делает их более эффективными по сравнению с альтернативами, такими как ControlNet. Они выравнивают внутренние знания с внешними сигналами для точного редактирования изображений. В отличие от ControlNet, который требует значительной вычислительной мощности и замедляет генерацию изображений, T2I-адаптеры запускаются только один раз в процессе удаления шума, что обеспечивает более быстрое и эффективное решение.
Параметры модели и требования к хранению дают ясное представление об этом преимуществе. Например, ControlNet-SDXL имеет 1251 миллион параметров и 2,5 ГБ памяти в формате fp16. В отличие от этого, T2I-Adapter-SDXL значительно сокращает параметры (79 миллионов) и объем памяти (158 МБ) с уменьшением соответственно 93,69% и 94%.
![](https://www.marktechpost.com/wp-content/uploads/2023/09/Screenshot-2023-09-11-at-11.42.25-PM-1024x317.png)
Недавние совместные усилия между командой Diffusers и исследователями T2I-адаптеров привели к поддержке T2I-адаптеров в Stable Diffusion XL (SDXL). Это сотрудничество было направлено на тренировку T2I-адаптеров на базе SDXL “с нуля” и дало многообещающие результаты при различных факторах условий, включая эскиз, canny, контурное изображение, глубину и openpose.
- Большие языковые модели SBERT
- Инженерия машинного обучения в реальном мире
- NVIDIA Grace Hopper Superchip покоряет бенчмарки MLPerf Inference
Обучение T2I-Adapter-SDXL включало использование 3 миллионов пар высококачественных изображений-текст из LAION-Aesthetics V2 с настройками обучения, указывающими 20000-35000 шагов, размер пакета 128 (параллельные данные с размером пакета одного GPU 16), постоянную скорость обучения 1e-5 и смешанную точность (fp16). Эти настройки обеспечивают баланс скорости, эффективности использования памяти и качества изображения, делая их доступными для использования всем сообществом.
Использование T2I-Adapter-SDXL в рамках фреймворка Diffusers делается простым благодаря ряду шагов. Сначала пользователи должны установить необходимые зависимости, включая пакеты diffusers, controlnet_aux, transformers и accelerate. Затем процесс генерации изображений с помощью T2I-Adapter-SDXL в основном включает два шага: подготовку условных изображений в соответствующем контрольном формате и передачу этих изображений и подсказок в StableDiffusionXLAdapterPipeline.
На практике загружается адаптер Lineart, и на входное изображение выполняется детекция контуров. Затем инициируется генерация изображения с определенными подсказками и параметрами, что позволяет пользователям контролировать степень применяемого условия с помощью аргументов, таких как “adapter_conditioning_scale” и “adapter_conditioning_factor”.
В заключение, T2I-адаптеры предлагают убедительную альтернативу ControlNets, решая вычислительные проблемы тонкой настройки предварительно обученных моделей текст-изображение. Их уменьшенный размер, эффективная работа и простота интеграции делают их ценным инструментом для настройки и управления генерацией изображений в различных условиях, способствуя творчеству и инновациям в искусственном интеллекте.