Использование языка для более глубокого понимания открытого мира роботами

Языковые навыки в мире роботов погружение в глубокое понимание

Система Feature Fields for Robotic Manipulation (F3RM) позволяет роботам интерпретировать открытые текстовые запросы при помощи естественного языка, помогая машинам манипулировать незнакомыми объектами. ¶ Авторы: Ge Yang и др.

Метод Feature Fields for Robotic Manipulation (F3RM), разработанный исследователями из Массачусетского технологического института, помогает роботам идентифицировать и схватывать близлежащие объекты, формируя трехмерные (3D) сцены из двухмерных (2D) изображений и моделей зрительных основ.

F3RM может быть применен в реальных условиях с тысячами объектов, интерпретируя открытые текстовые запросы от людей при помощи естественного языка.

Камера, установленная на палке для селфи, снимает 50 двухмерных изображений в разных позах для создания нейронного поля яркости, при этом полученный коллаж создает 360-градусный “цифровой двойник” окружающей среды.

F3RM использует модель зрительных основ Contrastive Language-Image Pre-training (CLIP) для улучшения геометрии семантическими данными, переформатируя 2D особенности CLIP для изображений, полученных камерой, в трехмерное представление.

После нескольких демонстраций, робот, получив команду, схватывает ранее неизвестные объекты, применяя свои геометрические и семантические знания, выбирая наиболее высоко оцененный вариант. Источник: MIT News Полная статья

Авторские права © 2023 SmithBucklin, Вашингтон, округ Колумбия, США