Это исследование искусственного интеллекта из Кореи представляет MagiCapture метод индивидуализации для интеграции концепций субъекта и стиля для создания портретных изображений высокого разрешения.

Корейское исследование по искусственному интеллекту представляет метод индивидуализации MagiCapture для создания портретных изображений высокого разрешения, объединяющий концепции субъекта и стиля.

Люди часто нуждаются в посещении фотостудии, а затем в дорогостоящей и трудоемкой процедуре редактирования фотографий, чтобы получить высококачественные портретные снимки, подходящие для резюме или свадебных торжеств. Представьте себе ситуацию, в которой вы могли бы получить высококачественные портретные снимки в определенных стилях, таких как паспортные или профильные фотографии, используя всего несколько селфи и референсных фотографий. Эта статья автоматизирует эту процедуру. Благодаря последним достижениям в моделях текст-изображение большого масштаба, таких как Stable Diffusion и Imagen, теперь возможно создание высококачественных портретных фотографий, максимально приближенных к реальности. Текущее исследование по настройке этих моделей направлено на комбинирование определенных субъектов или эстетики с использованием доступных обучающих фотографий.

Авторы статьи определяют свою цель как многоконцептуальную задачу настройки в своей статье. Составной вывод производится после изучения исходного материала и стиля референса соответственно. Использование референсных фотографий вместо редактирования на основе текста позволяет пользователям давать детальные рекомендации, что делает его более подходящим для этой цели. Однако, несмотря на обнадеживающие результаты предыдущих методов настройки, они часто приводят к визуализациям, которые лишены реализма и не являются коммерчески выгодными. Эта проблема обычно возникает при попытке обновления параметров больших моделей с помощью всего нескольких фотографий. В многоконцептуальной генерации, где отсутствие изображений истинного значения для комбинированных концепций обычно приводит к искусственному смешиванию разных концепций или отклонению от исходных концепций, этот снижение качества становится еще более заметным.

В связи с врожденной человеческой предвзятостью, любые искусственные артефакты или изменения личности легко заметны в производстве портретных фотографий, где эта проблема наиболее очевидна. Как решение этих проблем исследователи из KAIST AI и Sogang University представляют MagiCapture – метод многоконцептуальной настройки для объединения идей по теме и стилю для создания высококачественных портретных фотографий с высоким разрешением, используя всего несколько субъектов и стильных референсов. Их подход использует обучение с составным подсказкой, включающее составную подсказку как часть процесса обучения и укрепляющее тесное взаимодействие исходного материала и стиля референса. Для этого используются вспомогательные потери и фиктивные метки. Они также предлагают потерю переключения внимания в сочетании с скрытой целью восстановления, необходимой тактикой для достижения разделения информации и предотвращения утечки информации во время вывода. MagiCapture показывает лучшие результаты, чем другие базовые методы, как в количественных, так и в качественных оценках, и с небольшими изменениями может быть применен для создания изображений нечеловеческих объектов.

Вот основные результаты исследования, изложенные в их статье:

• Они предлагают метод многоконцептуальной настройки, который может создавать портретные фотографии высокого разрешения, точно воспроизводящие черты исходных и референсных фотографий.

• Они предлагают новую потерю переключения внимания с маскированной целью восстановления, которая успешно разделяет необходимую информацию от входных изображений и предотвращает утечку информации во время производства.

• Они предлагают стратегию обучения с составной подсказкой, использующую вспомогательные потери и псевдометки для эффективного объединения исходного материала и стиля референса. Их метод превосходит существующие базовые подходы как в количественных, так и в качественных оценках и с небольшими модификациями может быть применен для создания изображений нечеловеческих объектов.