Исследователи Массачусетского технологического института представляют новую легкую многоуровневую модель внимания для сегментации по смыслу на устройстве.

MIT researchers introduce a new lightweight multi-level attention model for semantic segmentation on a device.

Цель семантической сегментации, основной проблемы в компьютерном зрении, заключается в классификации каждого пикселя на входном изображении определенным классом. Автономное вождение, медицинская обработка изображений, вычислительная фотография и т. д. – всего лишь несколько примеров реальных контекстов, где семантическая сегментация может быть полезной. Поэтому существует высокий спрос на установку современных моделей семантической сегментации на реактивные устройства, чтобы удовлетворить различные потребности потребителей. Однако современные модели семантической сегментации имеют высокие требования к вычислительным мощностям, которые реактивные устройства не могут удовлетворить. Это мешает использованию этих моделей на реактивных устройствах. Семантическая сегментация, в частности, является примером задачи об узком прогнозировании, которая требует изображений с высоким разрешением и надежной способности извлечения контекстной информации. Поэтому перенос эффективной модельной архитектуры, используемой для классификации изображений, и применение ее к семантической сегментации неприемлемо.

Когда модели машинного обучения просят классифицировать миллионы отдельных пикселей на изображении с высоким разрешением, они сталкиваются с серьезным вызовом. Недавно появилось высокоэффективное использование нового типа модели, называемой видео-трансформером.

Исходно трансформеры разрабатывались для улучшения эффективности обработки естественного языка. В таком контексте они разделяют слова в предложении на токены и создают сетевую диаграмму, отображающую связь между этими словами. Карта внимания улучшает способность модели понимать контекст.

Для создания карты внимания видео-трансформер использует ту же идею, разбивая изображение на патчи пикселей и кодируя каждый маленький патч в токен. Модель использует функцию сходства, которая изучает непосредственное взаимодействие между каждой парой пикселей, чтобы создать эту карту внимания. Таким образом, модель создает “глобальное рецептивное поле”, позволяющее ей воспринимать все важные детали на изображении.

Карта внимания быстро становится очень большой, так как изображение с высоким разрешением может содержать миллионы пикселей, разделенных на тысячи патчей. В результате вычислительные требования для обработки изображения с увеличивающимся разрешением возрастают квадратично.

Команда Массачусетского технологического института заменила нелинейную функцию сходства на линейную, чтобы упростить метод построения карты внимания в своей новой серии моделей, названной EfficientViT. Благодаря этому порядок выполнения операций может быть изменен, чтобы сократить количество необходимых вычислений без ущерба функциональности или глобального рецептивного поля. Таким образом, количество времени обработки, необходимое для предсказания, масштабируется линейно с количеством пикселей на входном изображении.

Новые модели семейства EfficientViT выполняют семантическую сегментацию непосредственно на устройстве. EfficientViT построена вокруг нового легкого модуля многомасштабного внимания для обеспечения эффективности вычислений на аппаратном уровне и многомасштабного обучения. Предыдущие подходы к семантической сегментации вдохновили этот компонент.

Модуль был создан для обеспечения доступа к этим двум важным функциональностям, минимизируя необходимость в неэффективных аппаратных операциях. В частности, мы предлагаем заменить неэффективное самовнимание легким глобальным вниманием на основе ReLU для достижения глобального рецептивного поля. Вычислительная сложность глобального внимания на основе ReLU может быть снижена с квадратичной до линейной, сохраняя функциональность с помощью свойства ассоциативности умножения матриц. И поскольку он не использует аппаратно-интенсивные алгоритмы, такие как softmax, он лучше подходит для семантической сегментации на устройстве.

Для проведения всесторонней оценки EfficientViT были использованы популярные наборы данных для семантической сегментации, такие как Cityscapes и ADE20K. По сравнению с предыдущими современными моделями семантической сегментации, EfficientViT предлагает значительное улучшение производительности.

Ниже приведено краткое изложение вкладов:

  • Исследователи разработали революционное легкое многомасштабное внимание для выполнения семантической сегментации непосредственно на устройстве. Оно хорошо работает на реактивных устройствах, обеспечивая глобальное рецептивное поле и многомасштабное обучение.
  • Исследователи разработали новую серию моделей под названием EfficientViT на основе предложенного легкого модуля многомасштабного внимания.
  • Модель показывает значительное ускорение на мобильных устройствах по сравнению с предыдущими современными моделями семантической сегментации на известных наборах данных для семантической сегментации, таких как ImageNet.

В заключение, исследователи Массачусетского технологического института представили легкий модуль многомасштабного внимания, который обеспечивает глобальное рецептивное поле и многомасштабное обучение с помощью легких и эффективных аппаратных операций, обеспечивая значительное ускорение на реактивных устройствах без потери производительности по сравнению с современными моделями семантической сегментации. Модели EfficientViT будут дальше масштабироваться, и их потенциал для использования в других задачах компьютерного зрения будет исследоваться в дальнейших исследованиях.