Разблокирование точности при редактировании изображений и трехмерных сцен с помощью текстового направления встречайте Watch Your Steps

'Unlock precision in image and 3D scene editing with text direction, meet Watch Your Steps

Нейронные излучательные поля (NeRF) становятся все более популярными благодаря их способности создавать точные и интуитивные визуализации. Это привело к идее изменения NeRF для изменения изображений. Модели диффузионного шумоподавления также способны производить замечательные изображения из текстовых описаний и стали популярными для редактирования изображений из-за их эффективности. Несмотря на перспективы редактирования изображений на основе диффузионных техник, отсутствует автоматизированная методология определения областей, требующих модификации. В настоящее время используемые методы либо полагаются на маски, предоставляемые пользователями, либо используют глобальную информацию, найденную в шумных входных данных, как отправную точку, либо зависят от входных данных для определения того, как будет проводиться процесс шумоподавления.

Однако эти подходы обычно имеют тенденцию к чрезмерному редактированию. Даже приложение IN2N для редактирования NeRF сталкивается с проблемами избыточного редактирования сцены. Подобно IP2P, DiffEdit использует прогнозы шума, основанные на заголовках, для определения зон редактирования, хотя этот метод является более медленным и менее эффективным. Команда исследователей представила уникальный подход для определения и локализации точной области внутри изображения, которую необходимо изменить в соответствии с определенной текстовой инструкцией. Известный как Watch Your Steps, этот подход поддерживает локальное редактирование изображений и сцен по текстовым инструкциям.

Команда обнаружила ключевое различие между прогнозами, сделанными IP2P с и без инструкции, используя возможности InstructPix2Pix (IP2P). Это различие называется картой соответствия. Карта соответствия, по сути, служит дорожной картой, показывающей важность изменения определенных пикселей для достижения желаемых модификаций. Она служит руководством для внесения изменений, обеспечивая, чтобы изменялись только необходимые пиксели, оставляя ненужные без изменений.

Команда поделилась тем, что карта соответствия также полезна не только для основного редактирования изображений, но и для улучшения точности изменений, управляемых текстом, в контексте 3D-сцен, особенно тех, которые моделируются нейронными излучательными полями. Для этого, используя карты соответствия, связанные с различными точками обучения, было проведено обучение поля соответствия. Это поле соответствия эффективно определяет 3D-область, которую следует изменить, чтобы достичь желаемых модификаций, и поэтому процесс включает в себя создание карт соответствия из установленного поля соответствия для направления итеративного обновления точек обучения.

При оценке было видно, что данный метод достигает уровня производительности, несравнимого с редактированием нейронных излучательных полей (NeRF) и редактированием изображений. Это продемонстрировало ценность и превосходство данного подхода в преодолении сложностей, связанных с манипуляцией изображениями и сценами.