Исследование в Стэнфорде представляет PointOdyssey крупномасштабный синтетический набор данных для долгосрочного отслеживания точек

Стэнфордская исследовательская группа создала набор данных PointOdyssey для долгосрочного отслеживания точек.

Масштабные размеченные наборы данных служат основой для создания точных моделей в различных задачах компьютерного зрения. В этом исследовании они хотят предложить такую основу для достижения подробного отслеживания на большие расстояния. При подробном отслеживании на большие расстояния целью является следование за сопоставляемой поверхностью мира настолько долго, насколько это возможно, имея любое пиксельное положение в любом кадре фильма. Существует несколько поколений наборов данных, направленных на подробное отслеживание на короткие расстояния (например, оптический поток) и регулярно обновляемые наборы данных, направленные на различные типы грубого отслеживания на большие расстояния (например, отслеживание одного объекта, отслеживание нескольких объектов, сегментация видеообъекта). Однако существует только немного работ на стыке этих двух типов отслеживания.

Исследователи уже тестировали подробные отслеживатели на видео из реального мира с разреженными аннотациями, предоставленными людьми (BADJA и TAPVid), и тренировали их на нереалистичных синтетических данных (FlyingThings++ и Kubric-MOVi-E), которые состоят из случайных объектов, движущихся в неожиданных направлениях на случайных фонах. Хотя интересно, что эти модели могут обобщаться на реальные видео, использование такой базовой тренировки не позволяет развить долгосрочный временной контекст и семантическое понимание уровня сцены. Они утверждают, что долгосрочное отслеживание точек не должно рассматриваться как расширение оптического потока, где натурализм может быть заброшен без негативных последствий.

Хотя пиксели видео могут двигаться относительно случайно, их траектория отражает несколько моделируемых элементов, таких как тряска камеры, движения и деформации на уровне объекта, а также связи между несколькими объектами, включая социальные и физические взаимодействия. Прогресс зависит от того, чтобы люди осознали масштаб проблемы, как с точки зрения данных, так и методологии. Исследователи из Стэнфордского университета предлагают PointOdyssey, большой синтетический набор данных для тренировки и оценки долгосрочного точного отслеживания. Сложность, разнообразие и реализм видео из реального мира полностью представлены в их коллекции, а точная разметка пикселя может быть достигнута только с помощью симуляции.

Они используют движения, композицию сцены и траектории камеры, которые добываются из видео из реального мира и захвата движения (в отличие от случайных или ручных проектирований), что отличает их работу от предыдущих синтетических наборов данных. Они также используют доменную рандомизацию на различных атрибутах сцены, таких как карты окружения, освещение, человеческие и животные тела, траектории камеры и материалы. Они также могут предоставлять большую фотореалистичность, чем раньше, благодаря прогрессу в доступности высококачественного контента и технологий рендеринга. Профили движения в их данных извлекаются из крупных наборов данных захвата движения людей и животных. Они используют эти захваты для создания реалистичных долгосрочных траекторий для гуманоидов и других животных в открытых ситуациях.

В открытых ситуациях они сопоставляют этих актеров с 3D объектами, случайно расположенными на горизонтальной плоскости. Эти объекты реагируют на актеров в соответствии с законами физики, например, отталкиваются при контакте с ногами. Затем они используют захваты движения внутренних помещений для создания реалистичных сценариев внутри помещений и вручную воссоздают условия захвата в своем симуляторе. Это позволяет воссоздать точные движения и взаимодействия, сохраняя сценовую осведомленность исходных данных. Для предоставления сложных многокамерных данных о ситуациях они импортируют траектории камер, полученные из реальных кадров, и подключают дополнительные камеры к головам синтетических существ. В отличие от преимущественно случайных модельных движений Kubric и FlyingThings, они используют подход, основанный на захвате движения.

Их данные стимулируют развитие техник отслеживания, которые выходят за рамки традиционной зависимости только от сигналов нижнего уровня, таких как сопоставление особенностей, и используют сценовые сигналы для предоставления сильных априорных ограничений на отслеживание. Большая коллекция симулированных ресурсов, включающая 42 формы гуманоидов с текстурами, созданными художниками, 7 животных, 1K+ текстур фона/объекта, 1K+ объектов, 20 оригинальных 3D сценариев и 50 карт окружения, придает их данным эстетическое разнообразие. Для создания разнообразных темных и светлых сценариев они рандомизируют освещение сцены. Кроме того, они добавляют динамический туман и эффекты дыма к своим сценариям, добавляя тип частичной заслоненности, которого полностью лишены FlyingThings и Kubric. Одна из новых проблем, которую открывает PointOdyssey, – это как использовать долгосрочный временной контекст.

Например, передовой алгоритм отслеживания Persistent Independent Particles (PIPs) имеет временное окно из 8 кадров. Они предлагают несколько изменений в PIPs как первый шаг к использованию произвольно длинного временного контекста, включая значительное расширение его временной области из 8 кадров и добавление механизма обновления шаблона. Согласно экспериментальным результатам, их решение превосходит все остальные по точности отслеживания как на тестовом наборе данных PointOdyssey, так и на реальных бенчмарках. В заключение, PointOdyssey, большой синтетический набор данных для долгосрочного отслеживания точек, который пытается отразить сложности и возможности реального подробного отслеживания, является основным вкладом этого исследования.