Это исследование искусственного интеллекта представляет технологию Photo-SLAM повышение реалистичного режима картографирования в реальном времени на портативных устройствах.

Новая технология Photo-SLAM повышение реалистичности режима картографирования в реальном времени для портативных устройств

В области компьютерного зрения и робототехники одной из ключевых тем является одновременная локализация и построение карты (SLAM) с помощью камер. Геометрическое построение карты является основным акцентом традиционных систем SLAM, которые создают точные, но эстетически простые представления окружающей среды. Тем не менее, недавние прорывы в области нейронного рендеринга показали, что возможно интегрировать фотореалистичную реконструкцию изображений в процесс SLAM, что может улучшить восприятие робототехнических систем.

Существующие подходы значительно полагаются на неявные представления, что делает их вычислительно сложными и несовместимыми с устройствами с ограниченными ресурсами, хотя слияние нейронного рендеринга и SLAM показало многообещающие результаты. Например, ESLAM использует многоуровневые компактные тензорные компоненты, тогда как Nice-SLAM использует иерархическую сетку для хранения обучаемых признаков, отражающих окружающую среду. Впоследствии они сотрудничают для оценки положений камеры и максимизации признаков, сокращая потери реконструкции множества лучей. Процесс оптимизации занимает много времени. Поэтому, чтобы гарантировать эффективную сходимость, им необходимо интегрировать соответствующую глубинную информацию из различных источников, таких как RGB-D камеры, плотные оценщики оптического потока или монокулярные оценщики глубины. Кроме того, поскольку многослойные персептроны (MLP) декодируют неявные признаки, обычно требуется точно указать границу области для нормализации выборки лучей для достижения наилучших результатов. Это ограничивает потенциал системы для масштабирования. Эти ограничения подразумевают, что одной из основных целей SLAM в режиме реального времени, исследования и построения картой в незнакомой области с использованием портативных платформ не могут быть достигнуты.

В данной публикации исследовательская группа из Гонконгского университета науки и технологии и университета Сун Ят-сен представляет Photo-SLAM. Эта новаторская концепция выполняет онлайн фотореалистичное построение карты и точную локализацию, при этом решая проблемы масштабируемости и ограничений вычислительных ресурсов, характерные для существующих методов. Исследовательская группа отслеживает гиперпримитивные карты облаков точек, которые содержат вращение, масштабирование, плотность, коэффициенты сферических гармоник (SH) и характеристики ORB. С помощью обратного распространения ошибки между исходными и отрисованными изображениями гиперпримитивная карта позволяет системе изучать соответствующее отображение и оптимизировать отслеживание с помощью графов с факторами. Вместо выборки лучей используется трехмерное гауссово сглаживание для создания изображений. Введение трехмерного гауссова сглаживающего рендерера может снизить стоимость восстановления изображений, но это не позволяет получить высококачественную рендеринговую модель для онлайн-инкрементального построения карты, особенно в случае монокулярной среды. Кроме того, исследовательская группа предлагает геометрические методы плотификации и метод обучения на базе гауссовой пирамиды (GP), которые позволяют достичь высокого качества построения карты без зависимости от плотной информации о глубине.

Рисунок 1: Photo-SLAM – это революционная система в реальном времени, которая поддерживает одновременную локализацию и фотореалистичное построение карты с использованием RGB-D, стерео- и монокулярных камер. Со скоростью отрисовки до 1000 кадров в секунду она может восстанавливать обзоры сцены высокого качества.

Ключевой особенностью GP обучения является возможность постепенного приобретения многоуровневых признаков, что значительно улучшает производительность системы построения карты. Исследовательская группа использовала различные наборы данных, полученные с помощью RGB-D, стерео- и монокулярных камер, в течение длительных испытаний для оценки эффективности предлагаемого ими метода. Результаты этого эксперимента ясно показывают, что Photo-SLAM достигает передовых результатов в терминах скорости восстановления, качества фотореалистичного построения карты и эффективности локализации. Кроме того, операции в режиме реального времени системы Photo-SLAM на встраиваемых устройствах демонстрируют ее потенциал для применения в робототехнике. Рис. 1 и 2 показывают схематический обзор работы Photo-SLAM.

Рисунок 2 показывает четыре основных компонента системы Photo-SLAM, которая содержит карту с гиперпримитивными элементами, а также состоит из компонентов локализации, явной геометрической построения карты, неявного фотореалистичного построения карты и компонентов замыкания циклов.

Основные достижения этой работы включают в себя:

• Исследовательская группа создала первую фотореалистичную систему картографирования на основе карты гиперпримитивов и одновременной локализации. Новая структура работает с монокулярными, стерео и RGB-D камерами как внутри помещений, так и на открытом воздухе.

• Исследовательская группа предложила использовать гауссову пирамиду обучения, которая позволяет модели эффективно и быстро изучать многоуровневые особенности, что приводит к высокому качеству картографии. Система может работать в реальном времени даже на встроенных системах благодаря полной реализации на C++ и CUDA. Код будет доступен всему обществу.