Исследователи из CMU предлагают адаптацию во время тестирования с помощью моделей, ориентированных на слоты (Slot-TTA) полу-надзорная модель, оснащенная слот-ориентированным узким местом, которое одновременно сегментирует и восстанавливает сцены.

Researchers from CMU propose adaptive testing using slot-oriented models (Slot-TTA), a semi-supervised model equipped with a slot-oriented bottleneck that simultaneously segments and reconstructs scenes.

Одной из самых сложных и важных задач компьютерного зрения является сегментация экземпляров. Способность точно обозначать и классифицировать объекты на изображениях или в трехмерных облаках точек является основой для различных приложений, от автономного вождения до анализа медицинских изображений. За годы был сделан значительный прогресс в разработке передовых моделей сегментации экземпляров. Однако эти модели часто нуждаются в помощи в разнообразных реальных сценариях и наборах данных, которые отклоняются от их обучающего распределения. Эта задача адаптации моделей сегментации для работы с такими сценариями, выходящими за пределы распределения, стимулирует инновационные исследования. Одним из таких новаторских подходов, который привлек значительное внимание, является Slot-TTA (адаптация на этапе тестирования).

В быстро развивающейся области компьютерного зрения модели сегментации экземпляров сделали замечательные успехи, позволяя машинам распознавать и точно сегментировать объекты на изображениях и трехмерных облаках точек. Эти модели стали основой множества приложений, от анализа медицинских изображений до автономного вождения. Однако они сталкиваются с общим и формидабельным противником – адаптацией к разнообразным реальным сценариям и наборам данных, выходящим за пределы их обучающих данных. Эта неспособность плавно переходить из одной области в другую представляет собой значительное препятствие при эффективном развертывании этих моделей.

Исследователи из Карнеги-Меллонского университета, Google Deepmind и Google Research представили революционное решение, называемое Slot-TTA, чтобы справиться с этой проблемой. Этот новаторский подход предназначен для адаптации на этапе тестирования (TTA) в сегментации экземпляров. Slot-TTA соединяет возможности слот-центрических компонентов отображения изображений и облак точек с передовыми техниками сегментации. Основная идея Slot-TTA заключается в возможности адаптации моделей сегментации экземпляров динамически к сценариям, выходящим за пределы обучения, что значительно повышает их точность и универсальность.

Slot-TTA работает на основе индекса скорректированного индекса Рэнда (ARI) в качестве основной метрики оценки сегментации. Он проходит тщательное обучение и оценку на спектре наборов данных, включающих многопредставленные снимки RGB-изображений, однократные снимки RGB-изображений и сложные трехмерные облака точек. Отличительной особенностью Slot-TTA является его способность использовать обратную связь восстановления для адаптации на этапе тестирования. Эта инновация предполагает итеративное уточнение качества сегментации и отображения для ранее неизвестных точек зрения и наборов данных.

В многопредставленных снимках RGB-изображений Slot-TTA является сильным конкурентом. Его приспособляемость продемонстрирована через всестороннюю оценку набора данных MultiShapeNetHard (MSN). Этот набор данных включает более 51 000 объектов ShapeNet, тщательно воссозданных на фоне реальных HDR-изображений. Каждая сцена в наборе данных MSN имеет девять представленных снимков RGB, стратегически разделенных на входные и целевые представления для обучения и тестирования Slot-TTA. Исследователи особенно заботятся о том, чтобы между обучающими и тестовыми наборами не было перекрытия между экземплярами объектов и количеством объектов в сценах. Это тщательное построение набора данных имеет важное значение для оценки устойчивости Slot-TTA.

В ходе оценки Slot-TTA сравнивался с несколькими базовыми моделями, включая Mask2Former, Mask2Former-BYOL, Mask2Former-Recon и Semantic-NeRF. Эти базовые модели являются эталоном для сравнения производительности Slot-TTA внутри и вне обучающего распределения. Результаты впечатляют.

Во-первых, Slot-TTA с TTA превосходит Mask2Former, передовую модель сегментации 2D-изображений, особенно в сценах, выходящих за пределы обучения. Это демонстрирует превосходство Slot-TTA в адаптации к разнообразным реальным сценариям.

Во-вторых, добавление самообучаемых потерь от Bartler et al. (2022) в Mask2Former-BYOL не приводит к улучшениям, подчеркивая, что не все методы TTA одинаково эффективны.

В-третьих, Slot-TTA без сегментационного надзора, вариант, обученный исключительно для синтеза изображений с перекрестным представлением, подобно OSRT (Sajjadi et al., 2022a), значительно уступает в производительности сегментации с надзором, такой как Mask2Former. Это наблюдение подчеркивает необходимость сегментационного надзора во время обучения для эффективной TTA.

Способности Slot-TTA распространяются на синтез и разложение новых, неизвестных представлений RGB-изображений. Используя тот же набор данных и разделение на обучение и тестирование, исследователи оценивают качество пиксельной реконструкции и точность ARI сегментации Slot-TTA для пяти новых неизвестных точек зрения. В этой оценке присутствуют виды, которые не были видны во время обучения TTA. Результаты поразительны.

Качество отображения Slot-TTA на этих незнакомых точках зрения значительно улучшается с помощью адаптации во время тестирования, демонстрируя его способность улучшить сегментацию и качество отображения в новых сценариях. В отличие от Semantic-NeRF, серьезного конкурента, Slot-TTA испытывает трудности с обобщением на эти незнакомые точки зрения, что подчеркивает его адаптивность и потенциал.

В заключение, Slot-TTA представляет собой значительный прогресс в области компьютерного зрения, решая проблему адаптации моделей сегментации к разнообразным реальным сценариям. Комбинируя слот-центрические техники отображения, передовые методы сегментации и адаптацию во время тестирования, Slot-TTA предлагает замечательные улучшения в точности сегментации и универсальности. Это исследование не только раскрывает ограничения модели, но и проложило путь для будущих инноваций в области компьютерного зрения. Slot-TTA обещает улучшить адаптивность моделей сегментации экземпляров в постоянно меняющейся среде компьютерного зрения.