«Распознавание и генерация состояний объектов в машинном обучении с использованием метода Орезать и учиться»

«Как метод Орезать и учиться применяется в машинном обучении для распознавания и генерации состояний объектов»

В реальном мире существуют объекты разных размеров, оттенков и текстур. Визуальные качества, часто называемые состояниями или атрибутами, могут быть врожденными у предмета (например, цвет) или приобретенными через обработку (например, разрезание). При текущих моделях распознавания на основе данных (например, глубокие сети) предполагается, что для исчерпывающих атрибутов объектов доступны надежные обучающие данные, но им все равно нужна помощь в обобщении к невидимым аспектам объектов. Однако люди и другие животные имеют встроенную способность распознавать и представлять себе широкий спектр вещей с различными свойствами, составляя небольшое количество известных предметов и их состояний. Современным моделям глубокого обучения часто требуется более композиционное обобщение и возможность синтезировать и обнаруживать новые комбинации из ограниченного числа концепций.

Чтобы помочь в изучении композиционного обобщения, способности распознавать и создавать невидимые комбинации объектов в разных состояниях, группа исследователей из университета Мэриленд предлагает новый набор данных, Chop & Learn (ChopNLearn). Они ограничивают исследование нарезкой фруктов и овощей, чтобы сосредоточиться на композиционной составляющей. Эти объекты меняют форму в распознаваемых способах при различных способах нарезки. Цель заключается в изучении того, как можно применить эти различные подходы к распознаванию состояний объектов без прямого наблюдения к различным объектам. Выбор 20 предметов и семи типичных способов нарезки (включая полный объект) дает различную составность и пары объект-состояние различной величины.

Первая задача заключается в том, чтобы система создавала изображение из (объект, состояние) комбинации, которая не встречалась во время обучения. В этом целях исследователи предлагают модифицировать существующие генеративные модели текста-изображения в большом масштабе. Они сравнивают множество существующих подходов, включая текстовую инверсию и DreamBooth, используя текстовые подсказки для представления создания состояния объекта. Они также предлагают другой процесс, который включает добавление дополнительных токенов для объектов и состояний, а также одновременную настройку языковой и диффузионной моделей. Наконец, они оценивают преимущества и недостатки предложенной генеративной модели и существующей литературы.

Вторая задача расширяет существующую задачу композиционного распознавания действий. Эта работа направлена на распознавание малых изменений состояний объектов, ключевого первого шага для распознавания активности, в то время как в прошлых работах акцент был сделан на длительном отслеживании активности в фильмах. Задача позволяет модели узнавать изменения состояний объектов, невидимые невооруженным глазом, распознавая составы состояний в начале и конце задачи. Используя набор данных ChopNLearn, они сравнивают несколько передовых базовых линий для видео задач. Исследование завершается обсуждением множества функций, связанных с изображением и видео, которые могут получить выгоду от использования набора данных.

Вот некоторые из достижений:

  • Предложенный набор данных ChopNLearn будет включать фотографии и видео с разных углов камеры, представляя различные композиции объектов и состояний.
  • Они предлагают новую активность под названием Композиционная генерация изображений, чтобы создавать изображения для композиций объектов и состояний, которые в данный момент не видны пользователю.
  • Они устанавливают новый стандарт для Композиционного действия в целом. Распознавание направлено на изучение и распознавание того, как меняются объекты со временем и с разных точек зрения.

Ограничения

Малое количество переносимых данных становится все более значимым по мере появления фундаментальных моделей. В этой работе исследуется потенциал использования набора данных ChopNLearn для изучения композиционного производства и идентификации чрезвычайно сложных и взаимосвязанных концепций. ChopNLearn является масштабируемым набором данных с подложкой из зеленого экрана, что ограничивает обобщаемость моделей, обученных на нем. Однако это первая попытка изучить, как различные объекты могут иметь общие тонкие состояния (стили нарезки). Они исследуют это, тренируя и тестируя более сложные модели, используя ChopNLearn, а затем используя тот же инструмент для дополнительной настройки этих моделей с зеленым экраном и без него. Кроме того, они предполагают, что сообщество получит выгоду от использования ChopNLearn в еще более сложных задачах, таких как трехмерная реконструкция, интерполяция видеокадров, создание состояний изменений и т. д.

Посетите https://chopnlearn.github.io/ для получения дополнительной информации.

В заключение

Исследователи предлагают ChopNLearn, новый набор данных для оценки композиционного обобщения, то есть способности моделей распознавать и создавать невидимые композиции объектов в различных состояниях. Кроме того, они представляют две новые задачи – композиционную генерацию изображений и композиционное распознавание акций, на которых можно оценить эффективность существующих генеративных моделей и методов распознавания видео. Они иллюстрируют проблемы с текущими методами и их ограниченной обобщаемостью до новых композиций. Однако эти две задачи являются только вершиной айсберга. Множественные задачи с изображениями и видео требуют понимания состояний объектов, включая трехмерную реконструкцию, предсказание будущих кадров, видеопроизводство, суммирование и анализ долгосрочного видео. В результате этого набора данных исследователи надеются на появление новых композиционных вызовов для фотографий, видео, трехмерных изображений и других медиа, предложенных и изученных сообществом компьютерного зрения.