Как мы можем смягчить проблему искажения из-за фона в классификации изображений с мелкой детализацией? Сравнительное исследование стратегий маскировки и архитектур моделей.

Исследование стратегий маскировки и архитектур моделей для смягчения проблемы искажения из-за фона в классификации изображений с мелкой детализацией.

“`html

Классификация изображений с тонкой детализацией углубляется в отличительные подклассы внутри более широкой категории. Например, вместо простого определения изображения как “птица”, этот подход будет различать конкретные виды птиц. Из-за сложности таких задач эти модели часто неосознанно полагаются на незначительную информацию из фона изображения. Фон может предоставлять контекстные подсказки, но также может создавать предубеждение. Например, модель может случайно связывать все городские фоны со воробьями, если она часто видит птиц в городской среде во время обучения. Устранение фонового предубеждения для более точных результатов является важным, поскольку это может ограничить применимость модели в реальном мире.

Современные алгоритмы для классификации изображений с тонкой детализацией часто полагаются на сверточные нейронные сети (СНС) и визионные трансформеры (ViT) в качестве своей структурной основы. Однако существует фундаментальная проблема: контекст, в котором объект появляется, может значительно влиять на людей и машины. Модели глубокого обучения неосознанно часто сосредотачиваются больше на фоне, иногда до такой степени, что могут классифицировать только на его основе. При использовании в сценариях с необычными, незнакомыми фонами эти модели значительно ухудшают свою производительность.

Для преодоления вызовов, связанных с фоновыми предубеждениями, недавно было опубликовано новое исследование исследовательской группы из Монтпельеского университета во Франции, предлагающее исследовать две основные стратегии:

  • Ранняя маскировка: где детали фона удаляются с самого начала, на уровне изображения.
  • Поздняя маскировка: этот метод маскирует характеристики, связанные с фоном на более абстрактном этапе модели.

Ключевой вклад исследования заключается в его тщательном изучении фонового предубеждения, вызванного классификацией изображений с тонкой детализацией. Оно тщательно анализирует, как модели, такие как СНС и ViT, справляются с этими предубеждениями, и предлагает творческие методы маскировки для их решения.

Конкретно, ранняя маскировка включает удаление фона на этапе ввода изображения. Перед классификацией моделями, такими как СНС или Визионные Трансформеры, области фона изображения маскируются с использованием бинарной сегментационной сети, что позволяет модели сосредоточиться только на основном объекте. В отличие от этого, поздняя маскировка позволяет модели сначала обработать всё изображение, но затем маскирует фон на более продвинутом этапе. После того, как основная модель обработала изображение, высокоуровневые пространственные характеристики, связанные с фоном, исключаются. Оба метода направлены на то, чтобы модели сосредоточились на объекте интереса, сокращая предубеждения, вызванные деталями фона, что особенно важно для классификации с тонкой детализацией, где различия между категориями могут быть незначительными.

Для оценки двух стратегий исследователи провели экспериментальное исследование. Модели были обучены на наборе данных CUB, который содержит изображения 200 видов птиц. На тестовом наборе CUB и наборе Waterbirds, наборе за пределами распределения (OOD), где фоны изображений CUB были заменены на фоны из набора данных Places, была оценена производительность этих моделей. Исследователи использовали несколько моделей, таких как ConvNeXt и ViT, а также модели Small, Base и Large. Результаты показали, что модели, обученные с ранней маскировкой, часто показывают лучшие результаты, особенно на тестовом наборе Waterbirds OOD. Это указывает на то, что использование ранней маскировки снижает предубеждения, вызванные фоном изображений, и улучшает обобщение модели.

В заключение, авторы исследования рассмотрели влияние фонового предубеждения на обобщение моделей СНС и ViT для изображений, находящихся вне распределения (OOD). Они протестировали различные методы маскировки фона и обнаружили, что ранняя маскировка является наиболее эффективной для обоих типов моделей. Исследование подчеркивает важность учета фона в задачах обработки изображений и представляет стратегии для снижения предубеждений и улучшения обобщения.

“`