Google AI представляет SANPO многокритериальный видео набор данных для понимания сцен на открытом воздухе с точки зрения человека

Google AI представляет SANPO новый многокритериальный видео набор данных для точного анализа открытых сцен на улицах

Для таких задач, как автономное вождение, модель искусственного интеллекта должна понимать не только 3D-структуру дорог и тротуаров, но и определять и распознавать дорожные знаки и светофоры. Для этого на автомобиле устанавливается специальный лазер, который получает 3D-данные. Этот процесс называется “эгоцентрическим пониманием сцены”, то есть пониманием окружающей среды собственной перспективой. Проблема в том, что публично доступных наборов данных, выходящих за пределы области автономного вождения и обобщающих собственно эгоцентрическое сценическое понимание человека, практически нет.

Исследователи из Google представили набор данных SANPO (Scene understanding, Accessibility, Navigation, Pathfinding, Obstacle avoidance), который представляет собой многопараметрический видеонабор для эгоцентрического понимания сцен человека. SANPO состоит как из реальных, так и из синтетических данных – SANPO-Real и SANPO-Synthetic соответственно. SANPO-Real охватывает различные среды и содержит видео с двух стереокамер для поддержки методов с множественным видом. Реальный набор данных также включает 11,4 часов видео, снятого с частотой 15 кадров в секунду (FPS) с плотной аннотацией.

SANPO – это масштабный видеонабор данных для эгоцентрического понимания сцен человека, состоящий из более 600 тысяч реальных кадров и более 100 тысяч синтетических кадров с плотными прогнозами аннотаций.

Исследователи из Google уделили приоритет защите конфиденциальности. Они собирали данные, соблюдая законы на местном, городском и региональном уровнях. Они также убедились, что удалили любую личную информацию, такую как лица и номера автомобильных номеров, перед отправкой данных для аннотации.

Чтобы преодолеть недостатки при съемке видео, такие как размытость движения, ошибки человеческой оценки и т. д., был представлен SANPO-Synthetic, чтобы дополнить реальный набор данных. Исследователи сотрудничали с Parallel Domain, чтобы создать высококачественный синтетический набор данных, оптимизированный для соответствия реальным условиям. SANPO-Synthetic состоит из 1961 сеанса, записанных с использованием виртуализированных камер Zed с примерно одинаковым соотношением между установками на голове и на груди.

Синтетический набор данных и часть реального набора данных были аннотированы с использованием паноптических масок экземпляров, которые назначают класс и идентификатор каждому пикселю. В SANPO-Real только у нескольких кадров есть более 20 экземпляров на кадр. Напротив, у SANPO-Synthetic на каждый кадр приходится гораздо больше экземпляров, чем у реального набора данных.

Некоторые из других важных видеонаборов данных в этой области – SCAND, MuSoHu, Ego4D, VIPSeg и Waymo Open. SANPO был сравнен с этими наборами данных, и он является первым набором данных с паноптическими масками, глубиной, позой камеры, многопроекционной стереоскопией и одновременным реальным и синтетическими данными. За исключением SANPO, только у Waymo Open есть одновременная паноптическая сегментация и карты глубины.

Исследователи обучали две передовые модели – BinsFormer (для оценки глубины) и kMaX-DeepLab (для паноптической сегментации) на наборе данных SANPO. Они обнаружили, что набор данных довольно сложен для обеих задач плотного прогнозирования. Более того, синтетический набор данных имеет более высокую точность, чем реальный набор данных. Это в основном потому, что реальные среды довольно сложные по сравнению со синтетическими данными. В дополнение к этому, аннотаторы панорамной сегментации более точны в случае синтетических данных.

Набор данных SANPO – значительное достижение, созданное для решения недостатка наборов данных для эгоцентрического понимания сцены человека. Его плотные аннотации, многопараметрические особенности и уникальное сочетание панорамной сегментации и глубинной информации отличают его от других наборов данных в этой области. Кроме того, приверженность исследователей к конфиденциальности позволяет этому набору данных поддерживать других исследователей в создании навигационных систем для лиц с нарушениями зрения и расширять границы передового понимания визуальной сцены.