Стабильность AI представляет SDXL Turbo модель генерации текста в реальном времени в изображение.

Модель генерации текста в реальном времени SDXL Turbo обеспечивает стабильность ИИ в конвертации в изображение.

Stability AI представляет SDXL Turbo, который является впечатляющим прорывом в синтезе текста и изображения, обеспечиваемым инновационным методом дистилляции, известным как Adversarial Diffusion Distillation (ADD). Этот прорыв позволяет модели быстро генерировать изображения высокой точности, изменяя подход к конверсии текста в изображения в режиме реального времени.

SDXL Turbo – это эволюция его предшественника SDXL 1.0, представляющая ADD – технику дистилляции, объединяющую адверсарное обучение и дистилляцию оценок. Этот инновационный подход позволяет модели генерировать выводы в режиме реального времени с непревзойденной точностью, сохраняя качество при значительном сокращении числа необходимых шагов с 50 до одного. Для более глубокого понимания технических тонкостей, в исследовательской статье представлены подробности этой инновационной техники дистилляции.

Следует отметить, что ADD в SDXL Turbo предоставляет несколько ключевых преимуществ, напоминающих генеративно-состязательные сети (GAN), такие как синтез изображений в один шаг, обходящий общие артефакты и размытость, наблюдаемые в других методах дистилляции. В статье подробно описывается этот новаторский метод дистилляции, подчеркивая его влияние на генерацию изображений в реальном времени.

Результаты оценки производительности, проведенной сравнительным анализом различных вариантов модели диффузии – StyleGAN-T++, OpenMUSE, IF-XL, SDXL и LCM-XL, подчеркивают превосходство SDXL Turbo. В слепом тестировании, оценивающем соответствие заданиям и качество изображений, SDXL Turbo превзошел 4-шаговую конфигурацию LCM-XL всего за один шаг. Он даже превзошел 50-шаговую конфигурацию SDXL, выполнив всего четыре шага. Эти результаты подчеркивают выдающуюся производительность SDXL Turbo, побеждающую современные многошаговые модели с существенно сниженными вычислительными требованиями, сохраняя при этом высокое качество изображений.

Более того, скорость вывода, достигаемая SDXL Turbo, заслуживает внимания. На A100 модель генерирует изображение размером 512×512 всего за 207 мс (кодирование запроса + один шаг удаления шума + декодирование, fp16), причем всего 67 мс приходится на одно прямое оценивание UNet.

Чтобы сами увидеть возможности SDXL Turbo, можно исследовать генерацию изображений в реальном времени с помощью приложения Clipdrop для редактирования изображений. Бета-демонстрация демонстрирует мощь SDXL Turbo в преобразовании текстовых запросов в потрясающие визуальные результаты. Clipdrop доступен в большинстве браузеров и предлагает бесплатную пробную версию, чтобы исследовать передовые возможности SDXL Turbo.