Арена компьютерного зрения выберите своего чемпиона

Арена компьютерного зрения выберите своего чемпиона

Какая модель компьютерного зрения является лучшей? Какая модель лучше подходит для конкретной задачи?

Фото от GR Stocks на Unsplash

Перенос обучения изменил компьютерное зрение, но остаются нерешенными многие вопросы. Например, какая архитектура является лучшей? Какая модель лучше подходит для конкретной задачи? Каждая статья утверждает, что она является передовой, но действительно ли это так? В данном исследовании эти вопросы решены на эмпирическом уровне, предоставляя ответы на практические вопросы, которые задают искусственные интеллект-практики.

Парадигма компьютерного зрения

Фото от Mika Matin на Unsplash

Доминирующая парадигма в компьютерном зрении заключается в том, что система состоит из основы (сети, извлекающей признаки) и головы, специфической для конкретной задачи. Основа может формировать либо массив признаков для обнаружения и локализации объектов, либо простой вектор для задач, таких как классификация или поиск изображений.

В теории основа может быть обучена с учетом конкретной задачи, но в целом она обучается на большом количестве изображений, а затем настраивается на определенный набор данных, специфичных для задачи.

пример переноса обучения. Источник изображения: здесь

Этот подход называется перенос обучения и на данный момент он доминирует, потому что имеет несколько преимуществ: достигнут передовой уровень во многих задачах, позволяет сократить количество данных, специфических для задачи, которые требуются. Предварительное обучение на наборах данных содержит изображения из разных доменов, что делает подход более устойчивым для последующих задач.

В ранних системах модели обучались на ImageNet, а затем донастраивались под конкретную задачу (например, ResNet или VGG). Однако сегодня существует множество наборов данных и архитектур. Таким образом, существуют три основных фактора, которые влияют на конечный результат: его архитектура, алгоритм предварительного обучения и набор данных для предварительного обучения

Так как вариантов так много, как выбрать лучшую?

Схватка основных архитектур