Исследователи из Лондонского колледжа Университета представляют DSP-SLAM объектно-ориентированный SLAM с глубокими формами.

DSP-SLAM инновационный объектно-ориентированный SLAM с применением глубокого обучения — открытие от исследователей Лондонского колледжа Университета

В быстро развивающейся области искусственного интеллекта (ИИ) глубокое обучение становится значительно более популярным и проникает в каждую отрасль, делая жизнь проще. Одновременная локализация и построение карты (SLAM) в ИИ, которая является важной составляющей роботов, беспилотных автомобилей и систем дополненной реальности, недавно переживает переломные достижения.

SLAM включает в себя восстановление окружающей среды и одновременную оценку траектории движущейся камеры. SLAM имеет невероятные алгоритмы, которые могут точно оценивать траектории камеры и создавать отличные геометрические восстановления. Однако геометрические представления в одиночку не могут обеспечить важную семантическую информацию для более сложных задач, требующих понимания сцены.

Выведение конкретных деталей о объектах на сцене, таких как их количество, размер, форма или относительная поза, является сложной задачей для семантических SLAM-систем, которые в настоящее время используются. В последних исследованиях команда исследователей из отдела компьютерных наук Университетского Колледжа Лондона представила последнюю объектно-ориентированную SLAM-систему под названием DSP-SLAM.

DSP-SLAM разработана для создания всесторонней и точной совместной карты, где передние объекты представлены плотными 3D-моделями, а фон представлен разреженными ориентирами. Система может хорошо работать даже с модальностями ввода однокамерным, стерео или стерео+LiDAR.

Команда сообщила, что основной функцией DSP-SLAM является преобразование 3D облака точек, которое является входным значением системы SLAM, основанной на фичах, и обеспечение его способностью улучшать разреженную карту путем плотной восстановки определенно идентифицированных объектов. Для обнаружения объектов использовалась семантическая инстанц-сегментация, а для оценки формы и позы этих объектов использовались специально разработанные вектора. 

Команда сообщила, что основной особенностью системы является алгоритм оптимизации графа позиций, объектов и точек для сцен, который создает пакетную оптимизацию DSP-SLAM. Используя эту стратегию, система может улучшить и оптимизировать представление сцены, учитывая как фоновые ориентиры, так и передние объекты.

Работая со скоростью 10 кадров в секунду с использованием нескольких модальностей ввода, таких как однокамерный, стерео и стерео+LiDAR, система продемонстрировала впечатляющую производительность. DSP-SLAM была протестирована на нескольких наборах данных, таких как последовательности stereo+LiDAR из набора данных KITTI и последовательности монокулярного RGB из наборов данных Freiburg и Redwood-OS, чтобы проверить ее возможности. Результаты показали, что система способна производить отличное восстановление полностью объемных объектов, сохраняя при этом последовательную глобальную карту, даже при неполных наблюдениях.

Исследователи суммировали основные преимущества системы следующим образом.

  1. DSP-SLAM объединяет богатство семантического картографирования объектозависимого SLAM с точностью определения камеры на основе фичей путем восстановления фона с использованием разреженных ориентиров, в отличие от ранее использовавшихся методов, которые представляли только объекты.
  1. DSP-SLAM опережает методы, основанные на плотных изображениях глубины, потому что он использует только монохромные потоки RGB вместо Node-SLAM, и он может точно оценить форму объекта, используя всего 50 3D точек.
  1. DSP-SLAM опережает метод автоматической разметки, основанный на априорных знаниях, как в количественных, так и в качественных показателях оценки формы и позы объекта.
  1. Результаты эксперимента на наборе данных KITTI odometry показали, что совместная пакетная оптимизация DSP-SLAM превосходит ORB-SLAM2 по оценке траектории, особенно при использовании ввода стерео+LiDAR.