«Эта статья об искусственном интеллекте представляет LCM-LoRA революционизация генеративных задач текст в изображение с помощью продвинутых моделей согласованности латентных переменных и дистилляции LoRA»

«Новаторская трансформация генерации текста в изображение с использованием продвинутых моделей LCM-LoRA революция в сфере искусственного интеллекта»

<img alt=”” src=”https://ai.miximages.com/www.marktechpost.com/wp-content/uploads/2023/11/Screenshot-2023-11-18-at-1.04.29-PM-1024×716.png”/><img alt=”” src=”https://ai.miximages.com/www.marktechpost.com/wp-content/uploads/2023/11/Screenshot-2023-11-18-at-1.04.29-PM-150×150.png”/><p>Модели латентных диффузий – это генеративные модели, используемые в машинном обучении, особенно в вероятностном моделировании. Эти модели стремятся уловить внутреннюю структуру или скрытые переменные набора данных, часто сосредотачиваясь на генерации реалистичных образцов или предсказаниях. Они описывают эволюцию системы со временем. Это может означать преобразование набора случайных переменных из начального распределения в требуемое распределение через серию шагов или диффузионных процессов.</p><p>Эти модели основаны на методах решения ОДУ (Ordinary Differential Equations). Несмотря на снижение количества необходимых шагов вывода, они по-прежнему требуют значительных вычислительных ресурсов, особенно при использовании руководства без классификатора. Методы дистилляции, такие как Guided-Distill, обладают перспективой, но требуют улучшения из-за интенсивных вычислительных требований.</p><p>Чтобы справиться с такими проблемами, возникла потребность в моделях латентной последовательности. Их подход включает в себя обратный диффузионный процесс, рассматривая его как расширенную проблему ОДУ с потоком вероятности. Они инновационно предсказывают решение в латентном пространстве, обходя необходимость в итерационных решениях с помощью численных методов решения ОДУ. Для впечатляющего синтеза изображений высокого разрешения требуется всего 1-4 шага вывода.</p><p>Исследователи из университета Цинхуа расширяют потенциал LCM, применяя к нему дистилляцию LoRA для моделей Stable-Diffusion, включая SD-V1.5, SSD-1B и SDXL. Они расширили область применения LCM на более крупные модели с существенно меньшим потреблением памяти, достигая при этом высокого качества генерации изображений. Для специализированных наборов данных, таких как аниме, фотореалистичные или фантастические изображения, требуются дополнительные шаги, такие как использование метода дистилляции латентной последовательности (LCD) для дистилляции предварительно обученной модели LDM в модель LCM или непосредственной настройки модели LCM с использованием LCF. Однако можно ли достичь быстрого вывода без обучения на специальных наборах данных?</p><p>Команда представляет LCM-LoRA как универсальный модуль ускорения без обучения, который может быть непосредственно подключен к различным моделям fine-tuned Stable-Diffusion для ответа на этот вопрос. В рамках LoRA полученные параметры могут быть плавно интегрированы в исходные параметры модели. Команда показала практическую реализуемость применения LoRA в процессе дистилляции моделей латентной последовательности (LCM). Параметры LCM-LoRA могут быть непосредственно объединены с другими параметрами LoRA и донастроены на наборах данных определенного стиля. Это позволяет генерировать изображения в конкретных стилях с минимальным числом пробных шагов без необходимости дополнительного обучения. Таким образом, они представляют собой универсальный ускоритель для различных задач по генерации изображений.</p><p>Этот инновационный подход значительно сокращает необходимость в итерационных шагах, обеспечивая быстрое создание изображений высокой степени реалистичности из текстовых входных данных и устанавливая новый стандарт для работы на переднем крае возможностей. LoRA значительно сокращает объем изменяемых параметров, тем самым повышая вычислительную эффективность и позволяя улучшать модель с использованием значительно меньшего количества данных.</p>