Исследователи из Google и Georgia Tech представляют DiffSeg простой метод послеобработки искусственного интеллекта для создания масок сегментации

Researchers from Google and Georgia Tech present DiffSeg, a simple post-processing method for artificial intelligence to create segmentation masks.

Цель компьютерного зрения задачи, известной как семантическая сегментация, заключается в присвоении класса или объекта каждому пикселю на изображении. Намеренно получается плотная карта сегментации пикселей по каждому пикселю в изображении, причем каждый пиксель соответствует определенному типу или объекту. Многие последующие процессы зависят от этого как от предварительного условия, включая обработку изображений, медицинскую диагностику, автономное вождение и т. д. Сегментация на нулевом этапе для изображений с неизвестными категориями гораздо сложнее, чем обучение с учителем семантической сегментации, где предоставляется целевой набор данных, и категории известны.

Замечательный нулевой перенос на любые изображения достигается путем обучения нейронной сети с 1,1 млрд аннотаций сегментации, как показано в последней популярной работе SAM. Это значительный шаг в обеспечении возможности использования сегментации в качестве строительного блока для различных задач, а не ограничиваться конкретным набором данных с предопределенными метками. Однако сбор меток для каждого пикселя является дорогостоящим. По этой причине исследование и разработка безнадзорных и нулевых техник сегментации в наименее ограниченных ситуациях (т. е. без аннотаций и без предварительных сведений о цели) представляет значительный интерес.

Исследователи из Google и Georgia Tech предлагают использовать силу стабильной модели диффузии (SD) для создания универсальной модели сегментации. Недавно стабильные модели диффузии генерировали изображения высокого разрешения с оптимальным подсказыванием. В модели диффузии можно предположить наличие данных о кластерах объектов.

Поскольку слои самоорганизации в модели диффузии производят тензоры внимания, команда представила DiffSeg, простой и эффективный метод пост-обработки для создания масок сегментации. Три основные части алгоритма: агрегирование внимания, итеративное слияние внимания и подавление максимумов. DiffSeg использует итеративную технику слияния, начинающуюся с выборки сетки якорных точек для агрегации 4D тензоров внимания в пространственно последовательном порядке, сохраняющем визуальную информацию на нескольких разрешениях. Выбранные якорные точки служат отправной точкой для масок внимания, объединяющих похожие объекты. Степень сходства между двумя картами внимания определяется дивергенцией Кульбака-Лейблера, которая контролирует процесс слияния.

DiffSeg является популярной альтернативой обычным алгоритмам сегментации на основе кластеризации, поскольку он детерминирован и не требует ввода количества кластеров. DiffSeg может принимать изображение на вход и создавать качественную сегментацию без каких-либо предварительных сведений или специализированного оборудования (как SAM).

Несмотря на использование меньшего количества вспомогательных данных по сравнению с предыдущими попытками, DiffSeg достигает лучших результатов на обоих наборах данных. Исследователи оценивают DiffSeg на двух широко используемых наборах данных: COCO-Stuff-27 для безнадзорной сегментации и Cityscapes, специализированном наборе данных для автономного вождения. По сравнению с предыдущим надежным методом безнадзорной нулевой сегментации, предложенный метод улучшает его на 26% в абсолютном значении точности пикселей и 17% в среднем значении IoU на COCO-Stuff-27.