Эта научная статья AI представляет EdgeSAM продвижение машинного обучения для высокоскоростной и эффективной сегментации изображений на краевых устройствах

EdgeSAM Эффективная сегментация изображений на краевых устройствах с помощью машинного обучения – научная статья AI

Модель Segment Anything (SAM) – это модель на основе искусственного интеллекта, которая сегментирует изображения для обнаружения и распознавания объектов. Она является эффективным решением для различных задач компьютерного зрения. Однако SAM не оптимизирована для переноса на устройства с ограниченными ресурсами, что может привести к замедленной работе и высокому потреблению ресурсов. Исследователи из S-Lab Национального технологического университета и Шанхайской лаборатории искусственного интеллекта разработали EdgeSAM для решения этой проблемы. Данная оптимизированная версия SAM разработана для обеспечения улучшенной производительности без ущерба точности на устройствах с ограниченными ресурсами.

Исследование сосредоточено на разработке эффективных сверточных нейронных сетей и трансформеров для обучения визуальному представлению, направление, исследуемое в предыдущих исследованиях. В работе признается применение дистилляции знаний в задачах плотного прогнозирования, таких как семантическая сегментация и обнаружение объектов, основываясь на предыдущих исследованиях. Связанные работы включают Mobile-SAM, реализующую дистилляцию признаков пикселей, и Fast-SAM, обучающую модель сегментации экземпляров на основе YOLACT. Они подчеркивают предыдущие исследования, посвященные эффективной сегментации в конкретных областях и недавние усилия по созданию моделей сегментации, подходящих для реализации на мобильных платформах.

Исследование решает проблему развертывания вычислительно сложной модели SAM на устройствах с ограниченными ресурсами, таких как смартфоны, для интерактивной сегментации в режиме реального времени. Запуск EdgeSAM, оптимизированной версии SAM, позволяет достичь работы в реальном времени на устройствах с ограниченными ресурсами при сохранении точности. EdgeSAM использует метод дистилляции знаний с учетом выходных масок SAM и вводит настраиваемые подсказки для расшифровщика маски. С помощью полностью сверточной нейронной сети, подходящей для ускорителей искусственного интеллекта на устройствах, EdgeSAM превосходит Mobile-SAM, обеспечивая значительное увеличение скорости по сравнению с исходной моделью SAM для развертывания на устройствах с ограниченными ресурсами в режиме реального времени.

EdgeSAM оптимизирована для эффективного выполнения на устройствах с ограниченными ресурсами без значительных компромиссов в производительности. EdgeSAM преобразует исходный кодировщик изображений SAM на основе ViT в сверточную нейронную сеть, подходящую для устройств с ограниченными ресурсами. Чтобы полностью уловить знания SAM, исследование включает дистилляцию кодировщика подсказок и расшифровщика маски с использованием подсказок в виде рамок и точек. Добавляется легковесный модуль для решения проблем субъективного смещения набора данных. Оценка включает исследование дистилляции знаний с использованием подсказок внутри цикла и влияния легковесной сети предложений регионов с учетом приоритетов гранулярности через абляционные исследования.

EdgeSAM обеспечивает значительное увеличение скорости в 40 раз по сравнению с исходной моделью SAM, превосходя Mobile-SAM на 14 раз при развертывании на устройствах с ограниченными ресурсами. Она постоянно превосходит Mobile-SAM на различных комбинациях подсказок и наборах данных, демонстрируя свою эффективность для приложений в реальном мире. EdgeSAM, оптимизированная для развертывания на устройствах с ограниченными ресурсами, работает более чем в 40 раз быстрее на NVIDIA 2080 Ti и примерно в 14 раз быстрее на iPhone 14 по сравнению с SAM и MobileSAM. Представленная дистилляция знаний с использованием подсказок внутри цикла и легковесная сеть предложений регионов значительно улучшают производительность.

В заключение, основные моменты исследования можно сформулировать в нескольких пунктах:

  • EdgeSAM – это оптимизированная версия SAM.
  • Она разработана для развертывания на устройствах с ограниченными ресурсами, таких как смартфоны, в режиме реального времени.
  • По сравнению с исходной моделью SAM, EdgeSAM работает в 40 раз быстрее.
  • Она превосходит Mobile-SAM в 14 раз на устройствах с ограниченными ресурсами.
  • Значительно улучшает mIoU на наборах данных COCO и LVIS.
  • EdgeSAM интегрирует динамическую стратегию подсказок внутри цикла и легковесный модуль для решения проблемы субъективного смещения набора данных.
  • Исследование исследует различные конфигурации обучения, типы подсказок и подходы к заморозке.
  • Также внедрена легковесная сеть предложений регионов, использующая приоритеты гранулярности.