Исследователи из MIT создали новый аннотированный синтетический набор данных изображений, которые изображают широкий спектр сценариев, чтобы помочь моделям машинного обучения понять понятия в сцене.

Исследователи из MIT создали новый набор данных изображений для моделей машинного обучения.

Масштабные предварительно обученные модели видения и языка продемонстрировали выдающуюся производительность во множестве приложений, позволяя заменить фиксированный набор поддерживаемых классов на нулевое обоснование словаря при рассуждении над (почти произвольными) естественными языковыми запросами. Однако недавние исследования выявили фундаментальный недостаток в этих моделях. Например, их неспособность понимать концепции визуального языка (VLC), которые расширяются “помимо существительных”, такие как значение несущественных слов (например, атрибуты, действия, отношения, состояния и т. д.) или их сложность в композиционном рассуждении, например, понимание значения порядка слов в предложении.

Модели видения и языка, мощные алгоритмы машинного обучения, которые учатся соотносить текст с изображениями, продемонстрировали выдающиеся результаты при запросе на создание видео подписей или резюме. Хотя эти модели отличаются в различиях объектов, им часто требуется помощь в понимании концепций, таких как атрибуты вещей или расположение предметов на сцене. Например, модель видения и языка может воспринимать чашку и стол на изображении, но не понимать, что чашка находится на столе.

Исследователи из Массачусетского технологического института продемонстрировали новую технику, которая использует компьютерно генерируемые данные для помощи моделям видения и языка в преодолении этого недостатка. В частности, они предлагают улучшить аспекты VLC и композициональности сгенерированных визуальных и текстовых данных, а затем использовать эти данные для настройки моделей VL путем инструктирования их обращать больше внимания на эти характеристики. Кроме того, помимо того, что синтетические данные являются практически бесплатными и масштабируемыми, они также могут быть свободны от проблем с конфиденциальностью, которые всегда сопутствуют реальным данным. Создание синтетических данных, которые можно эффективно использовать для усиления аспектов VLC и композициональности моделей VL, предварительно обученных на огромных объемах реальных данных, представляет дополнительные технические сложности. В отличие от большинства предыдущих работ по генерации синтетических визуальных данных, им необходимо разработать изображения и текст, описывающий композиционные элементы сцены. Кроме того, они генерируют синтетические видео, использующие реальную физическую 3D-симуляцию, такую как разнообразные 3D-окружения и разнообразные 3D-объекты, движения человека и ресурсы действий, добавленное взаимодействие с вещами и различные ракурсы камеры.

Предыдущие работы использовали ресурсы движения для генерации синтетических данных, но визуальные данные не сопровождались текстовыми подписями и должны были быть разработаны с учетом композиционности. Исследователи вносят вклад в синтетические визуальные концепции (SyViC), большой (миллионный) синтетический набор данных VL с богатыми текстовыми подписями, легко расширяемыми с помощью кода синтеза данных и всеми ранее сгенерированными миллионными синтетическими данными.

Вклад в исследование

  • Исследователи вносят вклад в SyViC – миллионный синтетический набор данных с богатыми текстовыми аннотациями, разработанный для улучшения понимания VLC и композиционного рассуждения в моделях VL, а также методологию и код генерации для его синтеза и потенциального расширения.
  • Эффективная общая настройка моделей VL, использующая данные SyViC для улучшения характеристик сильных предварительно обученных моделей VL без ущерба для их нулевой производительности.
  • Экспериментальные результаты и всеобъемлющее изучение отклонений демонстрируют значительное (более 10% в некоторых случаях) улучшение понимания VLC и композиционного рассуждения, измеренное на последних бенчмарках VL-Checklist, ARO и Winoground и проверенное на самой популярной модели CLIP и ее производных (например, последней CyCLIP).

Результаты

Варианты всех моделей были созданы с использованием предложенного метода и синтетических данных SyViC. Перед настройкой на SyViC каждая модель сравнивается с соответствующей исходной моделью, обученной на масштабных реальных данных. Согласно результатам исследователей, как синтетические данные SyViC, так и предложенный метод настройки демонстрируют значительное улучшение по сравнению с соответствующими исходными базовыми значениями. Кроме того, исследователи иллюстрируют индивидуальное улучшение метрик VLC, полученных для CLIP в бенчмарках VL-Checklist и ARO, показывая соответственно до 9,1% и 12,6% абсолютного улучшения. Это демонстрирует эффективность и потенциал метода и синтетических данных SyViC для улучшения понимания VLC и композиционного рассуждения в моделях VL.

Попробуйте здесь https://synthetic-vic.github.io/ 

Ограничения

Хотя исследователям удалось получить весьма многообещающие результаты на трех различных бенчмарках, их работа имеет свои ограничения. К примеру, графический симулятор имеет упрощенную модель освещения, шума датчика и функций отражения по сравнению с реальным миром, что может повлиять на устойчивость цветовой постоянности. Для дальнейшего улучшения результатов, вероятно, потребуются более сложные методы адаптации к домену и отображения. Кроме того, более глубокое исследование законов масштабирования синтетических данных было бы отличным способом полностью реализовать потенциал работы.

Подводя итог

Большие модели компьютерного зрения и мультимодального восприятия диктуют существующий порядок в компьютерном зрении и мультимодальном восприятии, достигая передовых результатов в нескольких сложных бенчмарках. Однако существующим моделям требуется помощь в композиционном мышлении и понимании понятий, выходящих за рамки объектных существительных, таких как атрибуты и отношения. Это первое исследование о том, может ли синтетические данные уменьшить эти недостатки. Исследователи из Массачусетского технологического института предложили генерацию данных для создания набора данных масштабом в миллион синтетических изображений и соответствующих описаний, а также эффективную стратегию донастройки с полным анализом для улучшения композиционных и понимания понятийных возможностей мультимодальных моделей без ущерба для их классификационной производительности с нулевым обучением.