Это исследование по искусственному интеллекту представляет Point-Bind 3D модель мульти-модальности, выравнивающую облака точек с 2D изображением, языком, аудио и видео.

Исследование по искусственному интеллекту представляет Point-Bind 3D модель мульти-модальности.

В текущем технологическом ландшафте 3D-видение стало звездой, поднимающейся на популярность, захватывая прожекторы внимания благодаря своему быстрому росту и эволюции. Этот всплеск интереса в значительной степени обусловлен стремительным ростом спроса на автономное вождение, улучшенные системы навигации, передовое 3D-понимание сцены и развивающуюся область робототехники. Чтобы расширить сферу применения 3D-технологий, было сделано множество усилий для интеграции облаков точек 3D с данными других модальностей, что позволяет улучшить понимание 3D-сцен, генерацию 3D-моделей на основе текстовой информации и ответы на 3D-вопросы.

https://arxiv.org/abs/2309.00615

Исследователи представили Point-Bind, революционную многомодальную модель 3D, разработанную для бесшовной интеграции облаков точек с различными источниками данных, такими как 2D-изображения, язык, аудио и видео. Ориентируясь на принципы ImageBind, эта модель создает объединенное пространство вложений, которое связывает 3D-данные с многомодальными данными. Этот прорыв позволяет реализовать множество захватывающих приложений, включая, но не ограничиваясь генерацией 3D-моделей из любых модальностей, арифметикой в 3D-пространстве вложений и всесторонним пониманием 3D-мира.

На изображении выше мы видим общую схему работы Point-Bind. Исследователи сначала собирают пары данных 3D-изображение-аудио-текст для контрастного обучения, которое выравнивает 3D-модальность с другими, руководствуясь ImageBind. С помощью объединенного пространства вложений Point-Bind может быть использован для 3D-поиска по множественным модальностям, генерации 3D-моделей из любых модальностей, понимания 3D-сцен в нулевом контексте и разработки большой 3D-языковой модели, Point-LLM.

Основные достижения Point-Bind в этом исследовании включают:

  • Выравнивание 3D с ImageBind: В рамках объединенного пространства вложений Point-Bind первоначально выравнивает облака точек 3D с многомодальными данными, включая 2D-изображения, видео, язык, аудио и др.
  • Генерация 3D-моделей из любых модальностей: Основываясь на существующих генеративных моделях текста в 3D, Point-Bind позволяет синтезировать 3D-формы на основе любых модальностей, таких как текст/изображение/аудио/точки-сетки.
  • Арифметика в 3D-пространстве вложений: Мы наблюдаем, что 3D-признаки из Point-Bind могут быть объединены с другими модальностями для включения их семантики, достигая составного межмодального поиска.
  • Понимание 3D-мира в нулевом контексте: Point-Bind достигает передовой производительности в классификации 3D-объектов в нулевом контексте. Кроме того, наш подход поддерживает понимание открытого 3D-мира с помощью аудио-или текстовых ссылок.
https://arxiv.org/abs/2309.00615

Исследователи используют Point-Bind для разработки больших 3D-языковых моделей (LLM), названных Point-LLM, которые настраиваются на основе LLaMA для достижения ответов на 3D-вопросы и многофункционального рассуждения. Общую схему работы Point-LLM можно увидеть на изображении выше.

Основные достижения Point-LLM включают:

  • Point-LLM для 3D вопросно-ответной системы: С использованием PointBind мы представляем Point-LLM, первый 3D LLM, который отвечает на инструкции с условиями на 3D облака точек, поддерживающий как английский, так и китайский язык.
  • Эффективность данных и параметров: Мы используем только общедоступные данные о визуально-языковом взаимодействии для настройки без каких-либо данных о 3D инструкциях и применяем техники эффективной настройки параметров, экономя значительные ресурсы.
  • 3D и мультимодальное рассуждение: С помощью совместного пространства вложений Point-LLM может генерировать описательные ответы, рассуждая на основе комбинации 3D и мультимодального входа, например, облака точек с изображением/аудио.

В дальнейшей работе мы сосредоточимся на согласовании мультимодальности с более разнообразными 3D данными, такими как внутренние и внешние сцены, что позволит расширить сферу применения.