Окончен ли ожидание Jurassic Park? Эта модель искусственного интеллекта использует перевод изображений в изображения, чтобы оживить древние ископаемые.

Ожидание Jurassic Park окончено! Модель искусственного интеллекта оживляет древние ископаемые через перевод изображений в изображения.

Перевод изображений в изображения (I2I) – это интересное направление в компьютерном зрении и машинном обучении, которое позволяет безупречно преобразовывать визуальный контент из одной области в другую. Этот преобразовательный процесс выходит за рамки простой замены значений пикселей; он требует глубокого понимания основных структур, семантики и стилей изображений.

I2I нашло широкое применение в различных областях, от создания художественных изображений фотографий до преобразования спутниковых снимков в карты и даже перевода эскизов в фотореалистичные изображения. Оно использует возможности моделей глубокого обучения, таких как генеративно-состязательные сети (GAN) и сверточные нейронные сети (CNN).

Традиционные методы I2I в основном сосредоточены на переводе между областями с небольшими разрывами, такими как фотографии в живопись или разные типы животных. Однако эти задачи не требуют генерации значительно отличающихся визуальных особенностей или выводов о форме в процессе перевода.

Познакомимся с Revive-2I, новым подходом к I2I, который исследует задачу перевода черепов в живых животных, известную как Skull2Animal.

Skull2Animal – это сложная задача, которая включает перевод черепов в изображения живых животных. Эта задача представляет собой значительную сложность, так как требует создания новых визуальных особенностей, текстур и цветов, а также выводов о геометрии целевой области.

Задача Skull2Image. Источник: https://arxiv.org/abs/2308.07316

Для преодоления трудностей долгого перевода I2I Revive-2I использует текстовые подсказки, описывающие желаемые изменения в изображении. Он способен генерировать реалистичные и проверяемые результаты. Этот подход предлагает более строгое ограничение для приемлемых переводов, обеспечивая соответствие сгенерированных изображений заданной целевой области.

Revive-2I использует естественные языковые подсказки для выполнения перевода I2I с нулевым шагом через модели латентного распространения.

Revive-2I состоит из двух основных шагов: кодирования и декодирования с подсказкой текста. На шаге кодирования исходное изображение преобразуется в скрытое представление с помощью процесса, называемого диффузией. Затем это скрытое представление шумится, чтобы внести желаемые изменения. Благодаря выполнению процесса диффузии в скрытом пространстве, Revive-2I достигает более быстрого и эффективного перевода.

Обзор Revive-2I. Источник: https://arxiv.org/abs/2308.07316

Найти оптимальное решение для Revive-2I было непростой задачей. Это требовало экспериментов с различным количеством шагов в процессе прямой диффузии. Путем выполнения частичных шагов процесс перевода может лучше сохранять содержание исходного изображения, включая особенности целевой области. Этот подход позволяет осуществлять более надежные переводы, внедряя при этом желаемые изменения, указанные в текстовых подсказках.

Способность выполнять ограниченный долгий перевод I2I имеет значительное значение в различных областях. Например, правоохранительные органы могут использовать эту технологию для создания реалистичных изображений подозреваемых на основе эскизов, что помогает в идентификации. Защитники дикой природы могут показать последствия изменения климата для экосистем и мест обитания путем перевода изображений находящихся под угрозой видов в их живые аналоги. Кроме того, палеонтологи могут оживить древние ископаемые, переведя их в изображения их живых представителей. Кажется, что у нас наконец-то появится “Парк Юрского периода”.