Эта научная статья вводит всесторонний анализ основных архитектур компьютерного зрения раскрывая сильные и слабые стороны предобученных моделей.
Подробный анализ основных архитектур компьютерного зрения сильные и слабые стороны предобученных моделей - в настоящей научной статье.
В компьютерном зрении, основы являются фундаментальными компонентами многих моделей глубокого обучения. Категоризация, обнаружение и сегментация, осуществляемые в дальнейшем, зависят от признаков, извлекаемых основой. В последние годы наблюдается взрыв новых стратегий предварительного обучения и архитектур основ. В результате практикам сложно выбрать идеальную основу для своей конкретной деятельности и набора данных.
Битва основ (BoB) – новый крупномасштабный тест, который сравнивает многие популярные доступные публично предварительно обученные контрольные точки и случайно инициализированные базовые значения на различных последующих задачах. Он был разработан исследователями из Университета Нью-Йорка, Университета Джонса Хопкинса, Университета Мэриленда, Технологического института Джорджии, Инрии и Meta AI Research. Полученные результаты BoB проливают свет на относительные достоинства различных топологий основ и стратегий предварительного обучения.
Исследование выявило некоторые интересные факты, включая:
- Эта статья искусственного интеллекта представляет JudgeLM новый подход для масштабной оценки больших языковых моделей в открытых сценариях.
- Эта статья посвящена Графовой модели GraphGPT улучшение графовых нейронных сетей при помощи техник больших языковых моделей для достижения превосходной производительности при нулевом обучении на примерах
- Luma AI запускает Genie новую трехмерную генеративную модель искусственного интеллекта, позволяющую создавать трехмерные объекты по тексту.
- Предварительно обученные наблюдаемые сверточные сети обычно работают лучше, чем трансформеры. Это вероятно связано с тем, что наблюдаемые сверточные сети доступны и обучены на более крупных наборах данных. С другой стороны, модели с пространственной самообучением работают лучше, чем их наблюдаемые аналоги при сравнении результатов на одинаковых наборах данных.
- В сравнении с сверточными нейронными сетями, ViT более чувствителен к количеству параметров и объему данных предварительного обучения. Это свидетельствует о том, что обучение ViT может потребовать больше данных и вычислительных мощностей по сравнению с обучением сверточных нейронных сетей. Точность, затраты на вычисления и практики должны учитывать обмен доступностью данных при выборе архитектуры основы.
- Степень корреляции между задачами очень высока. Лучшие основы BoB проявляют себя в широком спектре сценариев.
- Полноценное настройка помогает трансформерам больше, чем сверточным нейронным сетям, при работе с плотными предсказательными задачами. Это свидетельствует о том, что трансформеры могут быть более зависимы от задачи и набора данных, чем сверточные нейронные сети.
- Моделирование зрительной речи с использованием моделей CLIP и других многообещающих расширенных архитектур. Предварительное обучение CLIP является лучшим среди обычных зрительных трансформеров, даже по сравнению с наблюдаемыми обученными основами ImageNet-21k. Эти данные подтверждают, что предварительное обучение в области зрительной речи может улучшить результаты в задачах компьютерного зрения. Авторы рекомендуют профессионалам изучить предварительно обученные основы, доступные через CLIP.
BoB раскрывает современное состояние фреймворков компьютерного зрения. Однако этот сектор динамичен, поскольку продолжается работа над новыми архитектурами и методиками предварительного обучения. Поэтому команда считает важным постоянно оценивать и сравнивать новые инфраструктуры и находить способы повышения производительности.