Microsoft Azure AI представляет Idea2Img самофинансирующую мультимодальную интеллектуальную систему искусственного интеллекта для разработки и автоматического создания изображений

Идея2Имейдж самофинансирующая мультимодальная интеллектуальная система искусственного интеллекта от Microsoft Azure AI для автоматического создания изображений

“`html

Целью “дизайна и генерации изображений” является создание изображения на основе широкого концепта, предоставленного пользователем. Исходная ИДЕЯ может включать ссылочные изображения, например, “эта собака выглядит как та на изображении”, или инструктивные указания, которые дополнительно определяют предполагаемое применение дизайна, например, “логотип для системы Idea2Img”. Человек может использовать модели текст-в-изображение (T2I) для создания изображения на основе подробного описания представляемого имагинируемого изображения (ИДЕИ). Пользователям необходимо вручную исследовать несколько вариантов, пока они не найдут тот, который наиболее точно описывает проблему (подсказку T2I).

Учитывая впечатляющие возможности больших мультимодальных моделей (LMM), исследователи исследуют, можно ли обучить системы на основе LMM на обладание той же итеративной самосовершенствования, освобождая людей от трудоемкой задачи перевода концепций в визуальные образы. При освоении неизведанного и решении сложных задач люди обладают врожденной способностью непрерывно совершенствовать методы. Задачи обработки естественного языка, такие как генерация аббревиатур, анализ настроений, исследование окружения на основе текста и т. д., могут быть успешнее решены с применением самосовершенствования, как показали агенты больших моделей языков (LLM). При переходе от деятельности только с текстом к мультимодальным сценариям возникают проблемы с усовершенствованием, оцениванием и проверкой мультимодальных содержимых, включающих множество взаимопереплетенных последовательностей изображений и текста.

Самоисследование обеспечивает автоматическое освоение широкого спектра актуальных задач в реальном мире, таких как работа с графическим пользовательским интерфейсом (GUI) взаимодействие с цифровым устройством, перемещение в неизвестном месте с агентом воплощенного сознания, игра в цифровую игру и т. д. Исследователи из Microsoft Azure под исследование взяли мультимодальные возможности итеративного самосовершенствования, сосредоточившись на “дизайне и генерации изображений”. В этом контексте они представили Idea2Img, мультимодальную систему самосовершенствования для автоматического разработки и создания изображений. Базовая LMM-модель GPT-4V(vision) взаимодействует с моделью T2I в Idea2Img для исследования применения модели и обнаружения полезной подсказки T2I. Анализ возвращаемого сигнала модели T2I (т. е. черновых изображений) и создание последующих запросов раунда (т. е. текстовых подсказок T2I) обрабатываются LMM.

Генерация подсказок T2I, выбор чернового изображения и обратная связь вносят свой вклад в мультимодальную способность итеративного самосовершенствования. Более конкретно, GPT-4V выполняет следующие шаги:

  1. Генерация подсказки: GPT-4V генерирует N текстовых подсказок, соответствующих введенной мультимодальной идее пользователя, в зависимости от предыдущей текстовой обратной связи и истории усовершенствования
  2. Выбор чернового изображения: GPT-4V тщательно сравнивает N черновых изображений для одной и той же идеи и выбирает наиболее перспективное
  3. Обратная связь: GPT-4V анализирует несоответствие между черновым изображением и идеей. Затем GPT-4V дает обратную связь о том, что пошло не так, почему это произошло и как можно улучшить подсказки T2I.

Кроме того, Idea2Img имеет встроенный модуль памяти, который отслеживает историю исследования для каждого вида подсказок (картинка, текст и обратная связь). Для автоматического создания и генерации изображений фреймворк Idea2Img повторяет эти три процесса на базе GPT-4V. Как улучшенный инструмент для дизайна и создания изображений, Idea2Img полезен для пользователей. На основе указания дизайна вместо подробного описания картинки, учета мультимодального входа и создания изображений с более высокой семантической и визуальной качественностью Idea2Img выделяется на фоне моделей T2I.

Команда рассмотрела несколько примеров создания и дизайна изображений. Например, Idea2Img может обрабатывать идеи с произвольными переплетенными последовательностями изображений и текста, включать в IDEA визуальный дизайн и описание предполагаемого использования, а также извлекать произвольную визуальную информацию из входного изображения. Учитывая эти обновленные возможности и сценарии использования, они создали набор оценочных идей из 104 образцов с комплексными вопросами, на которых люди могли ошибиться с первого раза. Команда проводит исследования пользовательских предпочтений с помощью Idea2Img и различных моделей T2I. Улучшение оценок пользовательских предпочтений во многих моделях генерации изображений, таких как +26.9% с SDXL, демонстрирует эффективность Idea2Img в этой области.

“`