Познакомьтесь с CoDeF искусственным интеллектом (ИИ) моделью, позволяющей вам выполнять реалистичное редактирование стиля видео, трекинг на основе сегментации и суперразрешение видео.

Meet CoDeF AI model that allows you to perform realistic video style editing, segmentation-based tracking, and video super-resolution.

Сила генеративных моделей, обученных на больших наборах данных и производящих отличное качество и точность, позволила области обработки изображений сделать значительные шаги вперед. Однако обработка видеоматериалов до сих пор не сделала значительных прорывов. Сохранение высокой временной согласованности может быть сложно из-за врожденной непредсказуемости нейронных сетей. Еще одной сложностью является природа видеофайлов, которые часто содержат текстуры низкого качества по сравнению с их эквивалентами на картинках и требуют большей вычислительной мощности. В результате алгоритмы, основанные на видео, значительно уступают тем, которые основаны на фотографиях. Это различие вызывает вопрос о возможности легкого применения хорошо установленных алгоритмов обработки изображений к видеоматериалам при сохранении высокой временной согласованности.

Исследователи предложили создание видеомозаик из динамических фильмов в эпоху до глубокого обучения и использование нейронного слоистого атласа изображений после предложения неявных нейронных представлений для достижения этой цели. Однако у этих подходов есть две основные проблемы. Во-первых, эти представления имеют ограниченную способность, особенно при точном воспроизведении мелких элементов, содержащихся в видео. Восстановленные кадры часто лишены малейших движений, таких как моргание глаз или напряженные улыбки. Вторым недостатком является обычное искажение вычисленного атласа, приводящее к низкому семантическому содержанию.

В результате существующие техники обработки изображений не работают на высшем уровне, поскольку оцененному атласу требуется больше естественности. Они предлагают новый метод представления видео, объединяющий 3D временное поле деформации с 2D полем изображений, основанным на хеш-функции. Регулирование обычных фильмов значительно улучшается с использованием мультирезольюционного хеш-кодирования для выражения временной деформации. Этот метод упрощает отслеживание деформации сложных объектов, таких как вода и смог. Однако вычисление естественного канонического изображения затруднено из-за улучшенных возможностей поля деформации. Для преодоления этой проблемы они предлагают использовать отжигаемый хеш во время обучения.

Сначала используется гладкая деформационная сетка для нахождения грубого решения для всех жестких движений. Затем постепенно вводятся высокочастотные особенности. Благодаря этому грубому обучению достигается компромисс между достоверностью канонического изображения и точностью восстановления. Они видят существенное улучшение качества восстановления по сравнению с предыдущими техниками. Это улучшение измеряется как явное увеличение естественности канонического изображения и приблизительное увеличение значений PSNR на 4,4. Их оптимизационный подход позволяет оценивать каноническое изображение с полем деформации за около 300 секунд вместо более чем 10 часов для предыдущих неявных слоистых представлений.

Они демонстрируют задачи обработки движущихся изображений, такие как перевод изображений с помощью подсказки, суперразрешение и сегментация, в более динамичный мир видеоконтента, опираясь на свое предложенное поле деформации содержимого. Они используют ControlNet на опорном изображении для перевода видео-в-видео с подсказкой, распространяя переведенный материал с помощью наблюдаемой деформации. Процедура перевода позволяет избежать необходимости использования моделей вывода, требующих много времени (например, моделей диффузии) для всех кадров, работая с единственным каноническим изображением. Сравнивая результаты перевода с самыми последними нулевыми переводами видео с использованием генеративных моделей, они демонстрируют значительное увеличение временной согласованности и качества текстуры.

Их подход лучше справляется с управлением более сложного движения, создает более реалистичные канонические изображения и обеспечивает более высокие результаты перевода по сравнению с Text2Live, который использует нейронный слоистый атлас. Они также расширяют использование техник обработки изображений, таких как суперразрешение, семантическая сегментация и распознавание ключевых точек, на каноническое изображение, позволяя их полезное использование в видеоситуациях. Это включает, среди прочего, отслеживание ключевых точек видео, сегментацию объектов видео и суперразрешение видео. Их предлагаемое представление последовательно производит синтезированные кадры высокого качества с большей временной согласованностью, подчеркивая его потенциал как революционного инструмента для обработки видео. Сила генеративных моделей, обученных на больших наборах данных и производящих отличное качество и точность, позволила области обработки изображений сделать значительные шаги вперед.

Однако обработка видеоматериалов до сих пор не сделала значительных прорывов. Сохранение высокой временной согласованности может быть сложно из-за врожденной непредсказуемости нейронных сетей. Еще одной сложностью является природа видеофайлов, которые часто содержат текстуры низкого качества по сравнению с их эквивалентами на картинках и требуют большей вычислительной мощности. В результате алгоритмы, основанные на видео, значительно уступают тем, которые основаны на фотографиях. Это различие вызывает вопрос о возможности легкого применения хорошо установленных алгоритмов обработки изображений к видеоматериалам при сохранении высокой временной согласованности.

Исследователи предложили создание видеомозаик из динамических фильмов в эпоху до глубокого обучения и использование нейронного слоистого атласа изображений после предложения неявных нейронных представлений для достижения этой цели. Однако у этих подходов есть две основные проблемы. Во-первых, эти представления имеют ограниченную способность, особенно при точном воспроизведении мелких элементов, содержащихся в видео. Восстановленные кадры часто лишены малейших движений, таких как моргание глаз или напряженные улыбки. Вторым недостатком является обычное искажение вычисленного атласа, приводящее к низкому семантическому содержанию.

Исследователи из HKUST, Ant Group, CAD&CG и ZJU предлагают новый метод представления видео, объединяющий 3D временное деформационное поле с 2D хэш-кодовым полем изображений. Регулировка общих фильмов значительно улучшается с использованием мультирезольюционного кодирования хэшей для выражения временных деформаций. Этот метод упрощает мониторинг деформаций сложных объектов, таких как вода и дым. Однако расчёт естественного канонического изображения затруднен из-за усовершенствованных возможностей деформационного поля. Для преодоления этой преграды они советуют использовать отжигаемый хэш во время обучения.

Сначала используется плавная деформационная сетка для нахождения грубого решения для всех жестких движений. Затем постепенно вводятся высокочастотные особенности. Представление достигает компромисса между подлинностью канонического изображения и точностью его восстановления в соответствии с этим курсом обучения. Они отмечают существенное улучшение качества восстановления по сравнению с ранее использовавшимися техниками. Это улучшение измеряется как явное увеличение естественности канонического изображения и приблизительное увеличение на 4,4 пункта PSNR. Их оптимизационный подход позволяет оценивать каноническое изображение с деформационным полем примерно за 300 секунд вместо более 10 часов для ранее использовавшихся неявных слоистых представлений.

Они демонстрируют обработку движущихся изображений, таких как мгновенное руководство по переводу изображений, суперразрешение и сегментация, в более динамичном мире видеоконтента, используя своё предложенное поле деформаций содержимого. Они используют ControlNet на эталонном изображении для мгновенного руководства по переводу видео-в-видео, распространяя переведенный материал через наблюдаемую деформацию. Процедура перевода устраняет необходимость во времязатратных моделях вывода (например, моделях диффузии) для всех кадров путем работы с одним каноническим изображением. Сравнивая их переводы с последними видеопереводами без обучения с использованием генеративных моделей, они показывают существенное увеличение временной последовательности и качества текстуры.

Их подход лучше управляет более сложными движениями, создает более реалистичные канонические изображения и дает более высокие результаты перевода по сравнению с Text2Live, который использует нейронный слоистый атлас. Они также расширяют использование техник обработки изображений, таких как суперразрешение, семантическая сегментация и распознавание ключевых точек, на каноническое изображение, позволяя их полезное использование в видеоситуациях. Это включает, среди прочего, отслеживание ключевых точек видео, сегментацию объектов видео и суперразрешение видео. Их предложенное представление последовательно создает синтезированные кадры высокой точности с большей временной последовательностью, подчеркивая его потенциал как инновационного инструмента для обработки видео.