Исследователи из Microsoft и Университета Цинхуа предлагают метод SCA (Segment and Caption Anything), чтобы эффективно оснастить модель SAM способностью генерировать региональные подписи.

Команда исследователей из Microsoft и Университета Цинхуа объясняет метод SCA (Segment and Caption Anything) для улучшения возможностей модели SAM в создании локальных описаний.

Пересечение компьютерного зрения и обработки естественного языка долго боролось с задачей создания региональных подписей для сущностей на изображениях. Эта задача становится особенно сложной из-за отсутствия семантических меток в обучающих данных. Исследователи ищут способы эффективного решения этой проблемы, стремясь обеспечить моделям понимание и описание разнообразных элементов изображений.Модель Segment Anything (SAM) стала мощной моделью сегментации, способной потрясающе точно сегментировать различные сущности. Однако, SAM нуждается в генерации региональных подписей, что ограничивает ее потенциал. В ответ на это, исследовательская команда из Microsoft и Университета Цинхуа представила решение под названием SCA (Segment and Caption Anything). SCA можно рассматривать как стратегическое дополнение к SAM, специально разработанное для предоставления ей возможности эффективной генерации региональных подписей.Аналогично строительным блокам, SAM обеспечивает надежную основу для сегментации, а SCA добавляет к этой основе ключевой слой. Это дополнение представляет собой легкий смеситель на основе запросов. В отличие от традиционного смесителя, этот компонент связывает SAM с моделями языка, согласовывая регион-специфические характеристики с пространством вложений языковых моделей. Это согласование критично для последующей генерации подписей, создавая синергию между визуальным пониманием SAM и языковыми возможностями моделей.Архитектура SCA является осмысленным сочетанием трех основных компонентов: кодировщика изображений, смесителя характеристик и декодеров для масок или текста. Смеситель характеристик, ключевой элемент модели, является легким двунаправленным трансформатором. Он действует как связующая ткань между SAM и языковыми моделями, оптимизируя согласование регион-специфических характеристик с языковыми вложениями.

Одним из ключевых достоинств SCA является ее эффективность. С небольшим числом обучаемых параметров, обычно порядка десятков миллионов, процесс обучения становится быстрее и масштабируемее. Эта эффективность достигается за счет стратегической оптимизации, сосредоточенной только на дополнительном смесителе характеристик, при этом сохраняются токены SAM.

Исследовательская команда использует стратегию предварительного обучения с использованием слабого наблюдения, чтобы преодолеть недостаток данных о региональных подписях. В этом подходе модель предварительно обучается заданиям обнаружения объектов и сегментации, используя наборы данных, содержащие только названия категорий, а не полные описания предложений. Это предварительное слабо контролируемое обучение является практическим решением для передачи общих знаний о визуальных концепциях за пределами ограниченных данных о региональных подписях, доступных.Были проведены обширные эксперименты для проверки эффективности SCA. Проведены сравнительные анализы с базовыми методами, оценка различных моделей обработки естественного языка при работе с изображениями и тестирование различных кодировщиков изображений. Модель продемонстрировала сильную производительность при выполнении задач генерации выражения, не изучаемого ранее (REG), показывая свою приспособляемость и способность к обобщению.

В заключение, SCA является многообещающим прорывом в области региональных подписей, которые эффективно дополняют мощные возможности сегментации SAM. Стратегическое добавление легкого смесителя характеристик, в сочетании с эффективностью обучения и масштабируемостью, делает SCA заметным решением для постоянной проблемы компьютерного зрения и обработки естественного языка.