Uni3D Исследование единого трехмерного представления в масштабе

Universal3D Исследование масштабируемого единого трехмерного представления

Масштабирование представлений текста и визуальных элементов уже несколько лет является основной целью исследований. Развития и исследования, проводимые в последнее время, привели к множеству революций в области языкового обучения и компьютерного зрения. Однако, несмотря на популярность масштабирования текстовых и визуальных представлений, недостаточно обсуждалось масштабирование представлений для трехмерных сцен и объектов.

Сегодня мы рассмотрим Uni3D – модель трехмерного основания, которая стремится исследовать унифицированные трехмерные представления. Фреймворк Uni3D использует предварительно обучаемую инициализированную двумерную модель ViT, чтобы сопоставить характеристики изображений и текста с соответствующими характеристиками облака точек трехмерных моделей.

Фреймворк Uni3D использует предварительные задачи и простую архитектуру для использования обилия предварительно готовых двумерных моделей и моделей, сопоставленных изображение-текст в качестве инициализации и объектов, соответственно. Такой подход позволяет полностью раскрыть потенциал двумерных моделей и стратегий для переноса их на трехмерный мир.

В этой статье мы подробнее рассмотрим трехмерное компьютерное зрение и фреймворк Uni3D, исследуя основные концепции и архитектуру модели. Итак, приступим.

Uni3D и обучение трехмерных представлений: введение

За последние несколько лет компьютерное зрение стало одной из самых инвестируемых областей в индустрии ИИ. После значительных достижений в двухмерных фреймворках компьютерного зрения разработчики сместили свое внимание на трехмерное компьютерное зрение. Это поле, особенно обучение трехмерных представлений, объединяет аспекты компьютерной графики, машинного обучения, компьютерного зрения и математики для автоматизации обработки и понимания трехмерной геометрии. Быстрое развитие трехмерных сенсоров, таких как LiDAR, а также их широкое применение в индустрии AR/VR, привело к увеличению внимания, уделяемого обучению трехмерных представлений. Его потенциальные применения продолжают расти ежедневно.

Хотя существующие фреймворки показали значительный прогресс в архитектуре трехмерных моделей, моделировании задач и обучении, большинство проводит исследования трехмерной архитектуры на относительно малой шкале с ограниченными данными, параметрами и сценариями задач. Проблема обучения масштабируемых трехмерных представлений, которые затем могут быть применены в режиме реального времени в различных средах, остается малоизученной.

Переходя к следующему пункту, за последние несколько лет масштабирование больших языковых моделей, которые предварительно обучены, помогло революционизировать область обработки естественного языка, и последние исследования показали переход прогресса от языка к двумерным данным и моделям, использующим масштабирование данных и моделей, что позволяет разработчикам попытаться повторить успех обучения трехмерным представлением, которое можно масштабировать и применять в реальном мире.

Uni3D является масштабируемой и унифицированной предварительной моделью трехмерного обучения, разработанной с целью изучения масштабных трехмерных представлений, проверяющих свои возможности на масштабе более миллиарда параметров, более 10 миллионов изображений в сочетании с более 70 миллионами текстов и более миллиона трехмерных форм. Ниже приведено сравнение точности на незаполненных данных по параметрам в рамках фреймворка Uni3D. Фреймворк Uni3D успешно масштабирует трехмерные представления от 6 миллионов до более миллиарда.

Фреймворк Uni3D состоит из двумерной модели ViT или Vision Transformer в качестве трехмерного энкодера, который затем предварительно обучается end-to-end для согласования характеристик сопоставленных изображений-текста с характеристиками облака точек трехмерных моделей. Фреймворк Uni3D использует предварительные задачи и простую архитектуру, чтобы использовать изобилие предварительно обученных двумерных моделей и моделей сопоставления изображения и текста в качестве инициализации и целей соответственно, полностью раскрывая потенциал двумерных моделей и стратегий для переноса их в трехмерный мир. Гибкость и масштабируемость фреймворка Uni3D измеряется в терминах

  1. Масштабирование модели от 6 миллионов до более миллиарда параметров.
  2. 2D инициализация для текстового надзора из визуального самонадзоренного обучения.
  3. Масштабирование модели текст-изображение от 150 миллионов до более миллиарда параметров.

Под гибкой и объединенной структурой, предлагаемой Uni3D, разработчики замечают согласованный рост производительности при масштабировании каждого компонента. Крупномасштабное обучение 3D-представлений также получает значительные преимущества от общего использования 2D-стратегий и стратегий масштабирования.

Как видно на рисунке ниже, Uni3D демонстрирует увеличение производительности по сравнению с предыдущими методами в режимах низкой готовности и без предварительного обучения. Стоит отметить, что Uni3D показывает точность классификации без предварительного обучения более 88% на ModelNet, что соответствует производительности нескольких современных методов надзора.

Кроме того, Uni3D также достигает высокой точности и производительности при выполнении других представителей 3D-задач, таких как сегментация частей и понимание открытого мира. Uni3D стремится сократить разрыв между 2D-видением и 3D-видением за счет масштабирования 3D основных моделей с объединенным, однако простым методом предобучения для получения более стабильных 3D-представлений в широком спектре задач, что, в конечном итоге, может помочь в сближении 2D- и 3D-видения в различных модальностях.

Uni3D получил вдохновение и учился на достижениях предыдущего 3D-обучения представлений и основных моделей, особенно в различных модальностях.

3D-обучение представлений

Метод 3D-обучения представлений использует облака точек для трехмерного понимания объекта, и эту область исследователи исследовали в последнее время, и было замечено, что эти облака точек могут быть предварительно обучены самонадзором с использованием конкретных предварительных задач 3D, включая моделирование точек маски, самовосстановление и контрастное обучение.

Следует отметить, что эти методы работают с ограниченными данными, и часто они не исследуют мультимодальные представления 3D из 2D или языка естественного программирования. Однако, недавний успех фреймворка CLIP, который демонстрирует высокую эффективность в обучении визуальных концепций из обычного текста с использованием метода контрастного обучения и далее стремится обучить 3D-представления, выравнивая функции изображения, текста и облаков точек с использованием того же метода контрастного обучения.

Основные модели

Исследователи усердно работают над созданием основных моделей для масштабирования и объединения мультимодальных представлений. Например, в области NLP исследователи работают над фреймворками, способными масштабировать предварительно обученные модели языка, и это постепенно переворачивает ситуацию в индустрии NLP. Кроме того, в области 2D-видения также наблюдаются прогресс, поскольку разработчики работают над фреймворками, которые используют техники масштабирования данных и моделей для продвижения языка к 2D-моделям, хотя такие фреймворки сложно реплицировать для 3D-моделей из-за ограниченной доступности 3D-данных и сложностей, связанных с объединением и масштабированием 3D-шаблонов.

Усвоив вышеперечисленные две области исследований, исследователи создали фреймворк Uni3D, первую 3D-основную модель с более миллиардом параметров, которая использует единообразную архитектуру ViT или Vision Transformer, позволяющую разработчикам масштабировать модель Uni3D с использованием единообразных 3D- или NLP-стратегий для масштабирования моделей. Разработчики надеются, что этот метод позволит фреймворку Uni3D сократить разрыв, который сейчас разделяет 2D и 3D-видению, а также улучшит совмещенность модальных представлений.

Uni3D: Метод и архитектура

Вышеуказанное изображение демонстрирует общий обзор фреймворка Uni3D, масштабируемого и единообразного фреймворка предварительного обучения 3D-представлений для обучения на большом объеме данных. Разработчики используют более 70 миллионов текстов и 10 миллионов изображений, сопоставленных с более чем миллионом 3D-моделей, чтобы масштабировать фреймворк Uni3D на более миллиарда параметров. Фреймворк Uni3D использует 2D ViT или Vision Transformer в качестве 3D-кодировщика, который затем обучается на конечных данных для выравнивания текстово-изображательных данных с 3D-характеристиками облака точек, позволяя достичь желаемой эффективности и точности на широком спектре наборов данных. Теперь рассмотрим более подробно принцип работы фреймворка Uni3D.

Масштабирование фреймворка Uni3D

Предыдущие исследования по обучению представлений облака точек традиционно сосредотачивались на разработке определенных архитектур моделей, которые обеспечивают лучшую производительность в широком спектре приложений, работая с ограниченным количеством данных из-за маломасштабных наборов данных. Однако в последнее время проводятся исследования, направленные на изучение возможности использования масштабируемого предварительного обучения в 3D, но результаты были незначительными из-за ограниченности доступных 3D-данных. Для решения проблемы масштабируемости 3D-фреймворков Uni3D использует силу структуры ванильного трансформера, которая практически повторяет Vision Transformer и способна решать проблемы масштабирования, используя единообразные стратегии масштабирования в 2D или NLP для увеличения размера модели.