Эта научная статья вводит всесторонний анализ основных архитектур компьютерного зрения раскрывая сильные и слабые стороны предобученных моделей.

Подробный анализ основных архитектур компьютерного зрения сильные и слабые стороны предобученных моделей - в настоящей научной статье.

В компьютерном зрении, основы являются фундаментальными компонентами многих моделей глубокого обучения. Категоризация, обнаружение и сегментация, осуществляемые в дальнейшем, зависят от признаков, извлекаемых основой. В последние годы наблюдается взрыв новых стратегий предварительного обучения и архитектур основ. В результате практикам сложно выбрать идеальную основу для своей конкретной деятельности и набора данных.

Битва основ (BoB) – новый крупномасштабный тест, который сравнивает многие популярные доступные публично предварительно обученные контрольные точки и случайно инициализированные базовые значения на различных последующих задачах. Он был разработан исследователями из Университета Нью-Йорка, Университета Джонса Хопкинса, Университета Мэриленда, Технологического института Джорджии, Инрии и Meta AI Research. Полученные результаты BoB проливают свет на относительные достоинства различных топологий основ и стратегий предварительного обучения.

Исследование выявило некоторые интересные факты, включая:

  • Предварительно обученные наблюдаемые сверточные сети обычно работают лучше, чем трансформеры. Это вероятно связано с тем, что наблюдаемые сверточные сети доступны и обучены на более крупных наборах данных. С другой стороны, модели с пространственной самообучением работают лучше, чем их наблюдаемые аналоги при сравнении результатов на одинаковых наборах данных.
  • В сравнении с сверточными нейронными сетями, ViT более чувствителен к количеству параметров и объему данных предварительного обучения. Это свидетельствует о том, что обучение ViT может потребовать больше данных и вычислительных мощностей по сравнению с обучением сверточных нейронных сетей. Точность, затраты на вычисления и практики должны учитывать обмен доступностью данных при выборе архитектуры основы.
  • Степень корреляции между задачами очень высока. Лучшие основы BoB проявляют себя в широком спектре сценариев.
  • Полноценное настройка помогает трансформерам больше, чем сверточным нейронным сетям, при работе с плотными предсказательными задачами. Это свидетельствует о том, что трансформеры могут быть более зависимы от задачи и набора данных, чем сверточные нейронные сети.
  • Моделирование зрительной речи с использованием моделей CLIP и других многообещающих расширенных архитектур. Предварительное обучение CLIP является лучшим среди обычных зрительных трансформеров, даже по сравнению с наблюдаемыми обученными основами ImageNet-21k. Эти данные подтверждают, что предварительное обучение в области зрительной речи может улучшить результаты в задачах компьютерного зрения. Авторы рекомендуют профессионалам изучить предварительно обученные основы, доступные через CLIP.

BoB раскрывает современное состояние фреймворков компьютерного зрения. Однако этот сектор динамичен, поскольку продолжается работа над новыми архитектурами и методиками предварительного обучения. Поэтому команда считает важным постоянно оценивать и сравнивать новые инфраструктуры и находить способы повышения производительности.