Google DeepMind представляет метод прямой настройки вознаграждения (DRaFT) эффективный искусственный интеллект для точной настройки моделей диффузии с максимизацией дифференцируемых функций вознаграждения

Google DeepMind представляет DRaFT мощный искусственный интеллект для точной настройки моделей диффузии с максимизацией функций вознаграждения

Модели диффузии преобразовали генеративное моделирование различных типов данных. Однако в практических приложениях, таких как создание эстетически привлекательных изображений по текстовым описаниям, часто требуется настройка. Модели диффузии текста на изображение используют такие техники, как руководство без классификатора и отобранные наборы данных, такие как LAION Aesthetics, для улучшения выравнивания и качества изображения.

В своем исследовании авторы представляют простой и эффективный метод обучения с использованием градиентов путем обратного распространения через процесс диффузии. Они представляют концепцию прямого обучения с использованием вознаграждений (DRaFT), который в основном обратной пропагацией проходит через всю цепочку диффузии, обычно представляемую в виде развернутого графа вычислений с длиной 50 шагов. Для эффективного управления памятью и вычислительными затратами они используют техники градиентного отслеживания и оптимизируют веса LoRA вместо изменения всего набора параметров модели.

На приведенном изображении показано применение DRaFT с помощью моделей вознаграждения, основанных на предпочтениях человека. Кроме того, авторы предлагают усовершенствования метода DRaFT для повышения его эффективности и производительности. Во-первых, они предлагают вариант DRaFT-K, который ограничивает обратное распространение только последними K шагами сэмплирования при вычислении градиента для настройки. Эмпирические результаты демонстрируют, что этот усеченный подход с градиентом заметно превосходит полное обратное распространение с тем же количеством шагов обучения, так как полное обратное распространение может привести к проблемам с взрывными градиентами.

В дополнение к этому авторы предлагают DRaFT-LV, вариацию DRaFT-1, которая вычисляет оценки градиента с меньшей дисперсией путем усреднения по нескольким шумовым сэмплам, что дополнительно повышает эффективность их подхода.

Авторы работы применили DRaFT к Stable Diffusion 1.4 и провели оценку с использованием различных функций вознаграждения и наборов подсказок. Их методы, использующие градиенты, демонстрируют значительные преимущества в эффективности по сравнению с базовыми методами настройки, основанными на RL (обучение с подкреплением). Например, они достигли более чем 200-кратного ускорения при максимизации оценок от классификатора LAION Aesthetics по сравнению с алгоритмами RL.

DRaFT-LV, один из их предложенных вариантов, проявил исключительную эффективность, обучаясь примерно в два раза быстрее, чем ReFL, предыдущий метод настройки с использованием градиентов. Кроме того, они продемонстрировали гибкость DRaFT, объединяя или интерполируя модели DRaFT с предварительно обученными моделями, что может быть достигнуто путем настройки весов LoRA через смешивание или масштабирование.

В заключение, прямая настройка моделей диффузии на обучаемые вознаграждения предлагает многообещающий подход для улучшения техник генеративного моделирования с применением изображений, текста и т. д. Его эффективность, гибкость и эффективность делают его ценным дополнением в арсенале исследователей и практиков в области машинного обучения и генеративного моделирования.