Исследователи из Джонс Хопкинс и Калифорнийского университета в Санта-Круз представляют D-iGPT революционное достижение в обучении искусственного интеллекта на основе изображений.

Джонс Хопкинс и Калифорнийский университет представляют революционное достижение в обучении искусственного интеллекта D-iGPT, основанный на изображениях.

Обработка естественного языка (NLP) находится в периоде трансформации с появлением больших языковых моделей (LLM), таких как серия GPT, которые устанавливают новые стандарты производительности для различных лингвистических задач. Авторегрессионное предварительное обучение, которое обучает модели прогнозировать наиболее вероятные токены в последовательности, является одним из основных факторов, обеспечивающих этот удивительный результат. Благодаря этой фундаментальной технике модели могут освоить сложное взаимодействие между синтаксисом и семантикой, способность понимать язык, подобно человеку. Авторегрессионное предварительное обучение в значительной степени способствовало развитию как компьютерного зрения, так и NLP.

В компьютерном зрении авторегрессионное предварительное обучение изначально было успешным, но последующие разработки показали резкое изменение парадигмы в пользу предварительного обучения в стиле BERT. Этот сдвиг стоит особого внимания, особенно в свете первых результатов от iGPT, которые показали, что авторегрессионное предварительное обучение и предварительное обучение в стиле BERT выполняются примерно одинаково при выполнении различных задач. Однако из-за его большей эффективности в обучении визуального представления последующие исследования предпочитают предварительное обучение в стиле BERT. Например, MAE показывает, что масштабируемый подход к обучению визуального представления может быть столь же простым, как прогнозирование значений случайно перекрытых пикселей.

В данной работе исследовательская группа Университета Джонса Хопкинса и Университета Калифорнии в Санта-Круз пересмотрели iGPT и задались вопросом о том, может ли авторегрессионное предварительное обучение производить высококвалифицированных обученных зрителей, особенно при широком применении. В их процесс внесены два важных изменения. Во-первых, исследовательская группа “токенизирует” фотографии на семантические токены с использованием BEiT, учитывая, что изображения по своей природе шумны и излишне. Это изменение переключает фокус авторегрессионного прогнозирования от пикселей к семантическим токенам, позволяя более сложному пониманию взаимодействия между различными областями изображения. Во-вторых, исследовательская группа добавляет дискриминативный декодер к генеративному декодеру, который авторегрессивно прогнозирует следующий семантический токен.

За предсказание семантических токенов видимых пикселей отвечает этот дополнительный компонент. Более того, интересно то, что модели, обученные дискриминативно, например CLIP, обеспечивают наиболее подходящие семантические визуальные токены для этого предварительного обучения. Исследовательская группа называет этот усовершенствованный метод D-iGPT. Эффективность предлагаемого ими D-iGPT подтверждается проведенными обширными тестами на различных наборах данных и задачах. Используя ImageNet-1K как единственный актуальный набор данных, их модель базового размера превосходит предыдущий передовой уровень на 0,6%, достигая точности классификации 86,2% с наивысшим значением 1.

Кроме того, их модель большого масштаба достигает точности классификации 89,5% с использованием 36 миллионов публично доступных наборов данных. D-iGPT достигает результатов, сравнимых с предыдущим передовым уровнем обучения на общедоступных наборах данных, при этом используется гораздо меньше тренировочных данных и меньший размер модели. Исследовательская группа также проанализировала D-iGPT на семантической сегментации, используя одинаковый набор данных для предварительного обучения и настройки финальной модели, и обнаружила, что он проявляет более высокую эффективность по сравнению с MAE эквивалентами.