Исследователи компании Apple представили революционный подход искусственного интеллекта к плотной трехмерной реконструкции из динамических конфигураций RGB-изображений.
Исследователи компании Apple революционный подход искусственного интеллекта к трехмерной реконструкции изображений
“`html
С использованием изученных априорных данных, реконструкция только с помощью RGB-изображения с помощью монокулярной камеры сделала значительные шаги в направлении решения проблем низкотекстурных областей и врожденной неоднозначности реконструкции на основе изображения. Практические решения для выполнения в режиме реального времени привлекли значительное внимание, так как они необходимы для интерактивных приложений на мобильных устройствах. Тем не менее, еще одним важным предварительным условием, которое пока не рассматривается в существующих передовых системах реконструкции, является необходимость успешного подхода в работе в режиме реального времени и онлайн.
Для работы в режиме онлайн алгоритм должен генерировать точные инкрементальные реконструкции во время съемки фотографий, полагаясь только на исторические и текущие наблюдения на каждом интервале времени. Эта проблема нарушает важное предположение предыдущих попыток: каждое изображение имеет точную и полностью оптимизированную оценку положения. Однако в системе одновременной локализации и построения карты (SLAM) при сканировании в реальных условиях происходит смещение положения, что приводит к потоку динамических оценок положения. Предыдущие положения обновляются из-за оптимизации графа положений и замыкания петель. Такие обновления положения в SLAM обычны при работе в режиме онлайн.
Как показано на Рис. 1, реконструкция должна подтверждать свое соответствие с системой SLAM, учитывая эти изменения. Тем не менее, недавние усилия по плотной реконструкции только с помощью RGB-изображений еще не решают динамический характер оценок положения камеры в онлайн-приложениях. Несмотря на значительные успехи в качестве реконструкции, данные инициативы неявно рассматривают динамические положения и сохраняют традиционную формулировку задачи с статически ориентированными входными изображениями. С другой стороны, они признают, что такие обновления существуют и предлагают способ интегрировать управление обновлением положения в текущие техники только с помощью RGB-изображений.
- Исследователи из ISTA Austria и Neural Magic представляют QMoE революционный компрессионный фреймворк для эффективного выполнения языковых моделей с триллионами параметров.
- Исследователи из Meta и UNC-Chapel Hill представляют Branch-Solve-Merge революционную программу, повышающую производительность больших языковых моделей в сложных языковых задачах.
- Исследователи из Университета Карнеги-Меллона и Университета Нью-Йорка предлагают метод искусственного интеллекта LLMTime нулевой прогноз временных рядов с использованием больших языковых моделей (LLM).
Рис. 1: Данные положения от системы SLAM (а, б) могут быть обновлены (с, красный-зеленый) в режиме живой 3D-реконструкции. Наша техника управления обновлением положения создает глобально согласованные и точные реконструкции, в то время как игнорирование этих изменений приводит к неправильной геометрии.
Они базируются на методе BundleFusion, который использует линейный алгоритм обновления для интеграции новых изображений в сцену. Это позволяет отключать более старые изображения и повторно интегрировать их при наличии обновленной позиции. Это исследование предлагает способ управлять изменениями положения в реальном времени для реконструкции изображений RGB с использованием отключения в качестве общего фреймворка. Изучены три техники реконструкции только с помощью RGB-изображения с предположениями о статическом положении. Чтобы преодолеть ограничения каждого подхода в онлайн-сценарии.
Конкретно исследователи из Apple и Университета Калифорнии в Санта-Барбаре предлагают уникальный метод деинтеграции на основе глубокого обучения, который облегчает онлайн-реконструкцию для таких техник, как NeuralRecon, оперирующих на обученном нелинейном правиле обновления. Они представляют новый и уникальный набор данных под названием LivePose, который содержит полные динамические последовательности положения для ScanNet, построенные с использованием BundleFusion, чтобы проверить эту технологию и содействовать будущему исследованию. Эффективность стратегии деинтеграции демонстрируется в тестах, которые показывают качественное и количественное улучшение трех передовых систем по важным характеристикам реконструкции.
Их основные достижения:
- Они предоставляют и определяют новую задачу в области компьютерного зрения, более тесно соответствующую реальной среде для мобильных интерактивных приложений: плотная онлайн 3D-реконструкция из динамически ориентированных RGB-изображений.
- Они представили LivePose, первый набор данных о динамической оценке положения SLAM, сделанный доступным широкой публике. Он включает в себя полный поток данных о положении SLAM для каждого из 1613 сканирования в наборе данных ScanNet.
- Для упрощения реконструкции с динамическими положениями они создают новые методы обучения и оценки.
- Они предлагают уникальный рекуррентный модуль деинтеграции, который удаляет устаревший материал сцены, чтобы обеспечить обработку динамического положения для техник с обученным рекуррентным интегрированием изображений. Этот модуль обучает, как управлять изменениями положения.
“`