Исследователи Google представляют RO-ViT простой метод искусственного интеллекта для предварительного обучения визионных трансформеров с учетом области для улучшения обнаружения слов с открытым словарем.

Google researchers introduce RO-ViT, a simple AI method for pre-training vision transformers with domain-awareness to improve open-vocabulary word detection.

<img src=”https://www.marktechpost.com/wp-content/uploads/2023/08/Screenshot-2023-08-30-at-6.11.03-PM.png”/><img src=”https://www.marktechpost.com/wp-content/uploads/2023/08/Screenshot-2023-08-30-at-6.11.03-PM-150×150.png”/><p>Недавние достижения позволили компьютерам интерпретировать и понимать визуальную информацию из мира, подобно человеческому зрению. Это включает обработку, анализ и извлечение значимой информации изображений и видео. Компьютерное зрение позволяет автоматизировать задачи, требующие визуальной интерпретации, сокращая необходимость в ручном вмешательстве. Обнаружение объектов – это задача компьютерного зрения, которая включает идентификацию и определение местоположения нескольких интересующих объектов внутри изображения или видеофрейма.</p><p>Задача обнаружения объектов направлена на определение того, какие объекты присутствуют на сцене и предоставление информации о их местоположении внутри изображения. Большинство современных детекторов объектов полагаются на ручные аннотации регионов и классов объектов, что ограничивает их словарный запас и делает масштабирование дорогостоящим.</p><p>Вместо этого можно использовать модели, связывающие зрение и язык (VLM), чтобы заполнить пробел между предварительным обучением на уровне изображения и дообучением на уровне объекта. Однако необходимо адекватно использовать понятие объектов/регионов в процессе предварительного обучения таких моделей.</p><p>Исследователи из <strong>Google</strong> <strong>Brain</strong> представляют простую модель для заполнения пробела между предварительным обучением на уровне изображения и дообучением на уровне объекта. Они представляют Region-aware Open-vocabulary Vision Transformers (RO-ViT) для выполнения этой задачи.</p><p>RO-ViT представляет собой простой способ предварительного обучения видеопреобразователей с учетом регионов для обнаружения объектов с открытым словарем. Стандартное предварительное обучение требует полных позиционных вложений изображения. Вместо этого исследователи случайным образом обрезают и изменяют размеры регионов позиционных вложений, а не используют позиционные вложения всего изображения. Они называют этот метод “Обрезанные позиционные вложения”.</p><p>Команда показала, что предварительное обучение изображения с использованием фокусировочной функции более эффективно, чем существующая функция CE потерь softmax. Они также предложили различные новые техники обнаружения объектов. Они утверждают, что существующие подходы часто пропускают новые объекты на этапе предложения объектов, потому что предложения часто нужно сбалансировать.</p><p>Команда говорит, что их модель RO-ViT достигает лучшего показателя в бенчмарке обнаружения объектов с открытым словарем LVIS. Согласно их статистике, она обеспечивает лучшие показатели в 9 из 12 метрик бенчмарка извлечения изображений и текста. Это свидетельствует о том, что наученное представление полезно на региональном уровне и очень эффективно в обнаружении объектов с открытым словарем.</p><p>По мере развития технологии обнаружения объектов ответственное развитие, развертывание и регулирование будут иметь решающее значение для обеспечения максимизации положительного влияния при минимизации потенциальных рисков. В целом, продолжающийся прогресс в области технологии обнаружения объектов ожидается способствовать более светлому будущему путем революционизации отраслей, повышения безопасности и качества жизни, а также создания инноваций, которые ранее считались научной фантастикой.</p><p>Посетите <strong>Paper</strong> и <strong>Google Blog</strong>. Вся заслуга за это исследование принадлежит исследователям этого проекта. Также не забудьте присоединиться к нашему сообществу <strong>ML SubReddit</strong> с более чем 29 тыс. подписчиков, <strong>группе Facebook с более чем 40 тыс. участников,</strong> <strong>каналу Discord</strong> и <strong>рассылке по электронной почте</strong>, где мы делимся последними новостями исследований в области искусственного интеллекта, интересными проектами по искусственному интеллекту и многим другим.</p><p><strong>Если вам нравится наша работа, вам понравится наша рассылка..</strong></p><p><em>Эта статья была опубликована на сайте MarkTechPost.</em></p>