Как мы можем продвинуть распознавание объектов в искусственном интеллекте? В данной статье по искусственному интеллекту представляется GLEE универсальная модель на уровне объекта для улучшенного анализа изображений и видео.

Улучшение распознавания объектов в искусственном интеллекте GLEE - универсальная модель на уровне объекта для анализа изображений и видео

Восприятие объектов на изображениях и видео разблокирует мощь машин для расшифровки визуального мира. Как виртуальные сыщики, системы компьютерного зрения сканируют пиксели, распознают, отслеживают и понимают множество объектов, которые оформляют холст цифровых впечатлений. Это технологическое мастерство, подпитываемое волшебством глубокого обучения, открывает двери к преобразующим применениям – от автономных автомобилей, навигирующих по городским ландшафтам, до виртуальных помощников, добавляющих больше интеллекта к визуальным встречам.

Исследователи из Хуажунского университета науки и технологий, ByteDance Inc. и Университета Джонса Хопкинса представляют GLEE – универсальную модель для восприятия объектов на изображениях и видео. GLEE отлично справляется с поиском и идентификацией объектов, демонстрируя превосходную обобщающую способность на различных задачах без специальной адаптации к задаче. Ее приспособляемость распространяется на интеграцию больших языковых моделей, предлагая универсальную информацию на уровне объекта для мультимодальных исследований. Способность модели усваивать знания из различных источников данных повышает ее эффективность в обработке различных задач восприятия объектов с улучшенной эффективностью.

GLEE объединяет кодировщик изображений, кодировщик текста и визуальную подсказку для обработки мультимодального ввода и предсказания обобщенного представления объектов. Поддерживаемая разнообразными наборами данных, такими как Objects365, COCO и Visual Genome, GLEE использует единую структуру для обнаружения, сегментации, отслеживания, определения местоположения и идентификации объектов в открытых сценариях. На основе MaskDINO с динамической головой класса, декодер объекта использует вычисление сходства для предсказания. После предварительного обучения на обнаружении объектов и сегментации экземпляров составное обучение приводит к результатам, отвечающим требованиям современных задач обработки изображений и видео.

GLEE демонстрирует удивительную универсальность и улучшенную обобщающую способность, эффективно решая разнообразные задачи без специальной адаптации к задаче. Она блестяще справляется с различными задачами обработки изображений и видео, такими как обнаружение объектов, сегментация экземпляров, определение местоположения, многотаргетное отслеживание, сегментация видеоэкземпляров, сегментация видеообъектов, интерактивная сегментация и отслеживание. GLEE поддерживает свою лидирующую позицию при интеграции в другие модели, демонстрируя универсальность и эффективность своих представлений. Нулевая передача обобщения модели дополнительно повышается за счет включения большого объема автоматически размеченных данных. Кроме того, GLEE служит в качестве основной модели.

https://arxiv.org/abs/2312.09158

GLEE – это революционная модель основы общего объекта, которая преодолевает ограничения текущих моделей визуальной основы, обеспечивая точную и универсальную информацию на уровне объекта. Она искусно справляется с разнообразными задачами, связанными с объектами, демонстрируя впечатляющую универсальность и превосходную обобщающую способность, особенно блестяще проявляя себя в сценариях передачи без предварительной настройки. GLEE включает различные источники данных для обобщенного представления объекта, позволяя масштабировать расширение набора данных и улучшенные возможности передачи без предварительной настройки. Благодаря единой поддержке многих источников данных, модель принимает дополнительные аннотации, достигая современных результатов на различных задачах последующей обработки, превосходя существующие модели, даже в сценариях без предварительной настройки.

В дальнейшем исследования могут быть сосредоточены на следующих направлениях:

  • Оngoing research is being conducted to expand the capabilities of GLEE in handling complex scenarios and challenging datasets, especially those with long-tail distributions, to improve its adaptability. 
  • Интеграция специализированных моделей нацелена на использование обобщенных представлений объектов GLEE, что может улучшить ее производительность в мультимодальных задачах. 
  • Исследователи также исследуют потенциал GLEE для создания подробного содержания изображений на основе текстовых инструкций, аналогичных моделям типа DALL-E, путем обучения ее на большом количестве пар изображение-подпись. 
  • Они улучшают информацию на уровне объектов GLEE путем включения семантического контекста, что может расширить ее применение в задачах на уровне объектов. 
  • Дальнейшее развитие возможностей интерактивной сегментации и отслеживания включает исследование различных визуальных подсказок и усовершенствование навыков сегментации объектов.