Революционизация видео-сегментации объектов открытие Cutie с передовыми техниками чтения памяти на уровне объектов

Революционная видео-сегментация открытие Cutie с передовыми техниками чтения памяти на уровне объектов

Отслеживание и сегментация объектов из открытого словаря, определенного в аннотации первого кадра, необходимы для сегментации видеообъекта (VOS), более точно, для “полусупервизорного” варианта. Техники VOS могут быть объединены с моделями Segment Anything (SAM) для общей сегментации видео (например, Tracking Anything) и для робототехники, видеомонтажа и сокращения затрат на аннотацию данных. Современные методы VOS используют парадигму на основе памяти. Любой новый запросный кадр «читает» из этой памяти для извлечения функций для сегментации. Это представление памяти генерируется с использованием предыдущих сегментированных кадров (либо предоставляется в качестве входа, либо сегментируется моделью). 

Важно отметить, что эти методы создают сегментацию снизу вверх из пиксельной памяти и в основном используют сопоставление на уровне пикселей для чтения памяти, либо с одним, либо с несколькими слоями сопоставления. Сопоставление на уровне пикселей преобразует каждый пиксель памяти в линейную комбинацию пикселей запроса (например, с использованием слоя внимания). В результате, сопоставление на уровне пикселей обладает низкой уровневой согласованностью и подвержено шуму сопоставления, особенно при наличии отвлекающих элементов. В результате, люди хуже справляются в сложных ситуациях, включая заслонения и частые отвлечения. Конкретно, при оценке недавно предложенного сложного набора данных MOSE вместо стандартного набора данных DAVIS-2017, производительность текущих методов ухудшается более чем на 20 единиц в J & F. 

Они считают, что отсутствие мышления на уровне объектов виновато в разочаровывающих результатах в сложных случаях. Они предлагают использовать чтение памяти на уровне объектов для решения этой проблемы, которое эффективно возвращает объект из памяти в запросный кадр (Рисунок 1). Они используют объектный преобразователь для достижения чтения памяти на уровне объектов, поскольку текущие методы объектного обнаружения/сегментации на основе запросов объектов, описывающие объекты как “объектные запросы”, служат вдохновением. Чтобы 1) итеративно исследовать и калибровать карту признаков (начать с чтения памяти на уровне пикселей) и 2) кодировать информацию на уровне объектов, этот объектный преобразователь использует ограниченную коллекцию объективных запросов, обученных от начала до конца. Этот метод позволяет осуществлять двустороннюю связь сверху вниз и снизу вверх, поддерживая высокоуровневое/глобальное представление запроса объекта и низкоуровневую/высокоразрешающую карту признаков. 

Рисунок 1 сравнивает чтение памяти на уровне объекта с чтением на уровне пикселей. Референсный кадр находится слева в каждой клетке, а сегментируемый запросный кадр находится справа. Неверные совпадения показаны красными стрелками. При наличии отвлекающих элементов низкоуровневое сопоставление пикселей (как это может стать громким. Для более надежной сегментации объекта на видео рекомендуется чтение памяти на уровне объекта.

Для этой связи параметризованы серии слоев внимания, включая рекомендуемое маскированное внимание на передний план и задний план. Расширение маскированного внимания только передний план позволяет некоторым объектным запросам сосредоточиться только на переднем плане. В то же время остальные запросы сосредотачиваются только на заднем плане, обеспечивая глобальное взаимодействие функций и четкое различие семантики переднего/заднего плана. Кроме того, они включают компактную объектную память (наряду с пиксельной памятью), чтобы сжать характеристики целевых объектов. С помощью целевых характеристик эта объектная память улучшает поиск объектов от начала до конца и обеспечивает эффективное долгосрочное представление целевых объектов. 

В тестах предложенный метод Cutie превосходит предыдущие методы в сложных ситуациях (например, на 8.7 J & F в MOSE по сравнению с XMem), сохраняя конкурентоспособные уровни точности и эффективности на общих наборах данных, таких как DAVIS и YouTubeVOS. В заключение исследователи из Иллинойсского Университета в Урбана-Шампейне и Adobe Research создали Cutie, который имеет объектный преобразователь для чтения памяти на уровне объекта.

• Он сочетает функции сегментации видео на основе пикселей с высокоуровневыми запросами сверху вниз для эффективного разделения видеообъекта в сложных ситуациях с значительными заслонениями и отвлечениями. 

• Они расширяют маскированный фокус на передний и задний планы, чтобы выделить целевой объект от отвлекающих элементов, сохраняя при этом богатые элементы сцены.

• Для хранения характеристик объекта в компактной форме для последующего извлечения в виде объектно-ориентированных представлений на основе цели при запросе, они создают компактную память для объектов.