Познакомьтесь с ConceptGraphs Структурированное графовое представление с открытым словарем для трехмерных сцен

Знакомьтесь с ConceptGraphs структурированное графовое представление с открытым словарем для трехмерных сцен

Захват и кодирование информации о визуальной сцене, обычно в контексте компьютерного зрения, искусственного интеллекта или графики, называется представлением сцены. Это включает создание структурированного или абстрактного представления элементов и атрибутов, присутствующих в сцене, включая объекты, их положения, размеры, цвета и взаимосвязи. Роботы должны создавать эти представления в режиме онлайн с помощью встроенных датчиков во время навигации в окружающей среде.

Представления должны быть масштабируемыми и эффективными, чтобы сохранить объем сцены и продолжительность работы робота. Открытая библиотека не должна ограничиваться предопределенными данными во время обучения, а должна быть способна обрабатывать новые объекты и концепции во время вывода. Это требует гибкости для возможности планирования для широкого спектра задач, таких как сбор плотной геометрической информации и абстрактной семантической информации для планирования задач.

Для включения вышеуказанных требований исследователи из Университета Торонто, МИТ и Университета Монреа предлагают ConceptGraphs, метод представления трехмерной сцены для восприятия и планирования роботов. Традиционный процесс получения трехмерных сценовых представлений с использованием основных моделей требует обучающих данных интернет-масштаба, и трехмерные наборы данных все еще должны иметь сравнимый размер.

Они основаны на присвоении каждой точке избыточного семантического признакового вектора, что потребляет больше памяти, чем необходимо, что ограничивает масштабируемость для больших сцен. Эти представления плотны и не могут быть динамически обновлены на карте, поэтому их сложно декомпозировать. Разработанный командой метод позволяет эффективно описывать сцены с использованием графовых структур с представлениями узлов. Он может строиться на системах реального времени, способных создавать иерархические трехмерные сценовые представления.

ConceptGraphs – это система с траекторией, ориентированная на объект, которая интегрирует геометрические данные из трехмерных систем картографирования и семантические данные из двумерных основных моделей. Поэтому эта попытка привязать двумерные представления, созданные моделями основных изображений и языка, к трехмерному миру, показывает впечатляющие результаты в задачах с открытым словарем, включая привязку объектов, рассуждение в трехмерном пространстве и навигацию по сцене.

ConceptGraphs могут эффективно строить трехмерные графы сцены с открытым словарем и структурировать семантические абстракции для восприятия и планирования. Команда также реализовала ConceptGraphs на платформах реальных колесных и ногатых роботов и продемонстрировала, что эти роботы легко могут планировать задачи для абстрактных языковых запросов.

Проект предоставляет RGB-D-кадры, команда запускает модель сегментации без классов для получения кандидатов на объекты. Они ассоциируют их по нескольким изображениям с использованием геометрических и семантических мер схожести и создают узлы в трехмерном графе сцены. Затем они используют LVLM для описания каждого узла и LLM для вывода взаимоотношений между смежными узлами и построения ребер в графе сцены.

Исследователи говорят, что в будущей работе будет включение временной динамики в модель и оценка ее производительности в менее структурированных и более сложных средах. Наконец, их модель решает основные ограничения в существующем ландшафте плотных и неявных представлений.