Meta AI представляет EfficientSAM младшего брата SAM с 20 раз меньшим количеством параметров и 20 раз быстрее выполнением времени

EfficientSAM новый младший брат SAM от Meta AI с 20 раз меньшим количеством параметров и 20 раз быстрее выполнением времени

<img alt=”” src=”https://ai.miximages.com/www.marktechpost.com/wp-content/uploads/2023/12/Screenshot-2023-12-09-at-9.32.52-PM-1024×618.png”/><img alt=”” src=”https://ai.miximages.com/www.marktechpost.com/wp-content/uploads/2023/12/Screenshot-2023-12-09-at-9.32.52-PM-150×150.png”/><p>В области зрения модель Segment Anything (SAM) достигла замечательных успехов, достигнув передовых результатов во многих задачах сегментации изображений, включая генерацию объектных предложений без модели, сегментацию экземпляра без модели и обнаружение границы и другие практические применения.</p><p>Визуальный набор данных SA-1B, содержащий более миллиарда масок из одиннадцати миллионов фотографий, является основой модели Vision Transformer (ViT) SAM. Это позволяет сегментировать любой элемент на заданном изображении. Благодаря возможности Segment Anything, SAM является не только моделью-основой в области зрения, но также ее применение расширяется за ее пределы.</p><p>Несмотря на эти преимущества, высокая стоимость архитектуры SAM, особенно кодера изображений, такого как ViT-H, делает модель SAM препятствием для практического использования в плане эффективности.</p><p>В ответ на эту сложность несколько недавних публикаций предлагают решения, которые уменьшают финансовое бремя использования SAM для сегментации экземпляра по запросу.</p><p>Маленький кодировщик изображений ViT, например, может получить выгоду от опыта кодировщика изображений ViT-H по умолчанию, согласно предыдущим исследованиям. Реальное время основанное на концентраторе CNN может сократить вычислительные затраты для активности Segment Anything. Здесь предлагается использовать обученный легковесный кодировщик изображений ViT, такой как ViT-Tiny/-Small, для упрощения SAM без потери производительности.</p><p>Новое исследование Meta AI создает предварительно обученные легковесные основы ViT для каждой задачи с использованием нашей технологии, связанной с маскировкой изображений SAM (SAMI). Для этого исследователи создают высококачественные предварительно обученные кодировщики ViT с использованием известного метода предварительного обучения MAE с использованием модели SAM.</p><p>Для более точности, предложенное решение SAMI обучает модель маскировки изображений с использованием легковесных кодировщиков для восстановления функций из ViT-H модели SAM, а не из патчей изображений. В алгоритме используется кодировщик SAM, ViT-H, для встраивания функций. Это создает общие основы ViT, которые можно использовать для последующих операций, таких как категоризация изображений, идентификация объектов и сегментация. Затем, предварительно обученные легковесные кодировщики настраиваются для сегмента и любой задачи с использованием декодеров SAM.</p><p>Команды также представляют EfficientSAMs, легковесные модели SAM с передовым соотношением качества и эффективности для реализации в реальном мире.</p><p>Команда предварительно тренировала модели на ImageNet с использованием восстановительной потери при разрешении изображения 224 × 224, а затем настраивала их для целевых задач с использованием надзорных данных для оценки их стратегии в контексте обучения передачи на основе маскировки изображений. SAMI может изучать обобщающие, легковесные кодировщики. Модели, обученные на ImageNet-1K с использованием преподготовки SAMI, показывают лучшие результаты в отношении обобщения, такие как ViT-Tiny/-Small/-Base. При настройке на ImageNet-1K с 100 эпохами для модели ViT-Small достигается точность top-1 82,7%, что лучше, чем у других передовых платформ предварительного обучения изображений. Обнаружение объектов, сегментация экземпляров и семантическая сегментация – это области, в которых команда дальше уточняет предварительно обученные модели.</p><p>По сравнению с существующими платформами предварительного обучения, их стратегия превосходит их в этих задачах. Более того, даже для небольших моделей они видят существенные улучшения. Кроме того, применение баттла Segment Anything используется для оценки наших моделей. Модель показывает лучшие результаты, чем FastSAM и текущие легковесные алгоритмы SAM в задаче сегментации экземпляров без модели на 4,1 AP/5,2 AP на COCO/LVIS.</p>