Эта искусственная интеллект статья представляет RMT Фьюжн RetNet и Transformer, Завоевывая новую эру эффективности и точности в компьютерном зрении

РМТ Фьюжн РетНет и Трансформер новая эра эффективности и точности в компьютерном зрении

После дебюта в обработке естественного языка (NLP) Transformer был перенесен в область компьютерного зрения, где он оказался особенно эффективным. В отличие от этого, сообщество NLP в последнее время проявило большой интерес к Retentive Network (RetNet), конструкции, которая потенциально может заменить Transformer. Китайские исследователи задаются вопросом, приведет ли применение концепции RetNet к компьютерному зрению к таким же впечатляющим результатам. Для решения этой проблемы они предлагают RMT, гибрид RetNet и Transformer. RMT, под влиянием RetNet, добавляет явный упадок в основу зрения, что позволяет модели зрения использовать ранее полученные знания о пространственных расстояниях. Подобное расстояние-связанное пространственное приоритетное разрешение позволяет точно регулировать перцептивную пропускную способность каждой метки. Они также декомпозируют процесс моделирования вдоль двух координатных осей изображения, что помогает снизить вычислительные затраты на глобальное моделирование.

Обширные эксперименты показали, что RMT превосходит в различных задачах компьютерного зрения. Например, с использованием всего 4,5G FLOPS RMT достигает точности Top1-acc 84,1% на ImageNet-1k. Если модели примерно одинакового размера и обучаются с использованием одной и той же техники, RMT всегда показывает наилучшую точность Top1-acc. В задачах вторичной обработки, таких как обнаружение объектов, сегментация экземпляров и семантическая сегментация, RMT заметно превосходит существующие основы зрения. 

Обширные эксперименты показывают, что предложенная стратегия работает; поэтому исследователи подтверждают свои утверждения. RMT достигает значительно лучших результатов в задачах классификации изображений, чем модели последнего поколения (SOTA). Модель превосходит конкурирующие модели в различных задачах, включая обнаружение объектов и сегментацию экземпляров.

Следующие исследователи внесли вклад:

  • Исследователи включают пространственные априорные знания о расстояниях в модели зрения, вынося ключевой процесс Retentive Network, удержание, в двухмерное пространство. Новый механизм называется Retentive SelfAttention (ReSA).
  • Для упрощения его вычисления исследователи разбивают ReSA на две оси изображения. Эта стратегия декомпозиции эффективно снижает необходимые вычислительные затраты с незначительными влиянием на эффективность модели.
  • Обширные испытания доказывают превосходные результаты RMT. RMT особенно полезен в задачах вторичной обработки, таких как обнаружение объектов и сегментация экземпляров.

Вкратце, исследователи предлагают RMT – основу зрения, объединяющую Retentive Network и Vision Transformer. С помощью RMT визуальным моделям вводятся пространственные априорные знания в виде явного затухания, связанного с расстоянием. Акроним ReSA описывает новый процесс улучшенного сохранения памяти. RMT также использует метод, который разбивает ReSA на две оси для упрощения модели. Обширные эксперименты подтверждают эффективность RMT, особенно в задачах вторичной обработки, таких как обнаружение объектов, где RMT проявляет примечательные преимущества.