Происходит ли возвращение ConvNet? Раскрытие их производительности на веб-масштабных наборах данных и сравнение с Vision Transformers
Возвращается ли ConvNet? Раскрытие его эффективности на веб-масштабных наборах данных и сравнение с Vision Transformers
Исследователи оспорили преобладающую веру в области компьютерного зрения, что Vision Transformers (ViTs) превосходят сверточные нейронные сети (ConvNets), когда им предоставляются большие наборы данных веб-масштаба. Они представляют архитектуру ConvNet, называемую NFNet, которая предварительно обучается на огромном наборе данных под названием JFT-4B, содержащем около 4 миллиардов помеченных изображений из 30 000 классов. Их целью является оценка свойств масштабирования моделей NFNet и определение того, как они работают по сравнению с ViTs с аналогичным вычислительным бюджетом.
В последние годы ViTs приобрели популярность, и существует широко распространенное мнение, что они превосходят ConvNets в производительности, особенно при работе с большими наборами данных. Однако этому мнению не хватает значительных доказательств, так как большинство исследований сравнивают ViTs с слабыми ConvNet-базовыми моделями. Кроме того, ViTs были предварительно обучены с существенно большими вычислительными бюджетами, что вызывает вопросы о фактических различиях в производительности между этими архитектурами.
Сверточные нейронные сети, в частности ResNets, были главным выбором для задач компьютерного зрения на протяжении многих лет. Однако появление ViTs, которые являются моделями, основанными на трансформерах, привело к изменению способа оценки производительности, с акцентом на моделях, предварительно обученных на больших наборах данных веб-масштаба.
- Применение двухголового классификатора
- Как поддерживать актуальность моделей основы с помощью последних данных? Исследователи из Apple и CMU представляют первый большомасштабный временной показатель бенчмарка (TiC) с 12,7 миллиардами пар временной метки изображений-текста для непрерывного
- От биологического обучения к искусственным нейронным сетям что дальше?
Исследователи представляют NFNet – архитектуру сверточной нейронной сети и предварительно обучают ее на обширном наборе данных JFT-4B, придерживаясь архитектуры и процедуры обучения без существенных модификаций. Они изучают, как производительность моделей NFNet масштабируется в зависимости от различных вычислительных бюджетов, варьирующихся от 0.4k до 110k вычислительных часов ядра TPU-v4. Их целью является определение, может ли NFNet соответствовать ViTs в производительности с аналогичными вычислительными ресурсами.
Исследовательская группа обучает различные модели NFNet с разными глубинами и ширинами на наборе данных JFT-4B. Они настраивают эти предварительно обученные модели на ImageNet и строят график их производительности в зависимости от вычислительного бюджета, используемого при предварительном обучении. Они также наблюдают закон масштабирования в логарифмической шкале, установляя, что большие вычислительные бюджеты приводят к лучшей производительности. Интересно, что они замечают, что оптимальный размер модели и бюджет эпохи увеличиваются параллельно.
Исследовательская группа обнаруживает, что их самая дорогостоящая предварительно обученная модель NFNet, NFNet-F7+, достигает точности ImageNet Top-1 90,3% при предварительном обучении на 110k вычислительных часов ядра TPU-v4 и на 1,6k вычислительных часов ядра TPU-v4 при настройке. Более того, введение повторного увеличения во время настройки позволяет достичь замечательной точности Top-1 в 90,4%. В сравнении с моделями ViT, которым часто требуются более существенные бюджеты предварительного обучения, достигается подобная производительность.
В заключение, данное исследование оспаривает преобладающую веру в то, что ViTs значительно превосходят ConvNets, когда они обучаются с использованием аналогичных вычислительных бюджетов. Они демонстрируют, что модели NFNet могут достигать конкурентных результатов на ImageNet, соответствуя производительности моделей ViTs. Исследование подчеркивает, что доступность вычислительных ресурсов и данных является важным фактором в производительности модели. В то время как ViTs имеют свои преимущества, ConvNets, такие как NFNet, остаются серьезными претендентами, особенно при обучении в большом масштабе. Эта работа призывает к справедливой и сбалансированной оценке различных архитектур, учитывая как их производительность, так и вычислительные требования.