Эта статья ИИ из MIT представляет новый подход к робототехнике сокращение разрыва между 2D и 3D с помощью усовершенствованных полей признаков и моделей зрения-языка.

Новый подход к робототехнике сокращение разрыва между 2D и 3D с помощью улучшенных признаков и моделей зрения-языка - статья от MIT AI

Команда исследователей из MIT и Института искусственного интеллекта и фундаментальных взаимодействий (IAIFI) представила революционную методику роботизированного управления, решающую проблему позволения роботам понимать и манипулировать объектами в непредсказуемых и перегруженных средах. Возникающая проблема заключается в необходимости у роботов иметь детальное представление о 3D-геометрии, которое, как правило, отсутствует в 2D-изображениях.

В настоящее время многие робототехнические задачи требуют как пространственного, так и семантического понимания. Например, складскому роботу может потребоваться поднять предмет из заполненного хранилища на основе текстового описания в товарном манифесте. Для этого необходимо обладать способностью захватывать объекты, исходя из их геометрических свойств и семантических характеристик.

Для преодоления пробела между 2D-изображениями и 3D-геометрией исследователи разработали методику, названную Feature Fields for Robotic Manipulation (F3RM). Этот подход использует отфильтрованные полевые признаки, объединяя точную 3D-геометрию и богатую семантику моделей основных 2D-признаков. Основная идея заключается в использовании предварительно обученных моделей зрения и зрения-языка для извлечения признаков и их конденсации в 3D-полевые признаки.

Методика F3RM включает три основных составляющих: конденсацию полевых признаков, представление положения с помощью полевых признаков с 6 степенями свободы, а также инструкции на естественном языке. Отфильтрованные полевые признаки (DFF) расширяют концепцию полевых нейрораспределений (NeRF), включая дополнительный выход для восстановления плотных 2D-признаков с помощью модели зрения. Это позволяет модели сопоставить 3D-положение с вектором признаков, учитывая как пространственную, так и семантическую информацию.

Для представления положения исследователи используют набор точек запроса в координатной системе захвата, которые выбираются из 3D-гауссового распределения. Эти точки преобразуются в глобальную систему координат, и признаки взвешиваются на основе локальной геометрии. Полученные векторы признаков объединяются в представление положения.

Методика также предусматривает возможность использования инструкций на естественном языке для манипуляции объектами. Робот получает запросы на естественном языке, указывающие объекты для манипуляции во время тестирования. Затем он получает соответствующие демонстрации, инициализирует грубые захваты и оптимизирует положение захвата на основе предоставленных инструкций на языке.

Что касается результатов, исследователи провели эксперименты по захватыванию и размещению предметов, а также по манипуляции под руководством языка. Была показана способность понимания плотности, цвета и расстояния между предметами. Эксперименты с чашками, кружками, ручками отверток и ушами гусеницы показали успешные результаты. Робот смог обобщить на объекты, значительно отличающиеся формой, внешним видом, материалами и положением. Он также успешно реагировал на команды на естественном языке, даже для новых категорий объектов, не встречавшихся во время демонстраций.

В заключение, методика F3RM предлагает многообещающее решение проблемы обобщения в открытой среде для роботизированных систем манипуляции. Сочетая 2D-предварительные приоритеты с 3D-геометрией и интегрируя естественные инструкции на языке, она открывает путь для решения сложных задач роботов в разнообразных и загроможденных средах. Несмотря на ограничения, такие как время, необходимое для моделирования каждой сцены, методика имеет значительный потенциал для развития робототехники и автоматизации.