Знакомьтесь с HITL-TAMP новым AI подходом к обучению роботов комплексным навыкам манипуляции через гибридную стратегию автоматического планирования и человеческого контроля

Познакомьтесь с новым AI-подходом HITL-TAMP обучение роботов комплексным навыкам манипуляции через гибридную стратегию автоматического планирования и человеческого контроля

Обучение роботов сложным навыкам манипуляции через наблюдение за показами человека демонстрирует многообещающие результаты. Предоставление обширных демонстраций манипуляций требует много времени и затрат, что затрудняет масштабирование данной парадигмы на операции в реальном мире с длительным горизонтом. Однако, не все аспекты задачи равны.

Новое исследование, проведенное компанией NVIDIA и Джорджийским институтом технологии, исследует подходы к улучшению систем планирования задач и движения (TAMP), которые показали особенно эффективные результаты при разрешении проблем с широким спектром возможных будущих исходов. Путем исследования всех возможных перестановок ограниченного набора примитивных навыков, подходы TAMP могут планировать поведение для различных многошаговых манипуляционных задач. Каждый навык традиционно вручную настраивается, но закрытие лида со встроенной пружиной или вставка стержня в отверстие – это два примера задач, которые крайне сложно моделировать эффективно. Вместо этого команда использует телевидение человека с обратной связью для включения только необходимых навыков, оставляя остальное на автоматизацию. Эти возможности опираются на телевизионное ведущее во время сбора данных и политику, изученную из собранных данных во время выполнения. Интеграция систем TAMP и телевизора связана с существенными технологическими трудностями, и особое внимание следует уделять обеспечению плавного перехода между ними.

Для преодоления этих преград они предлагают систему телевизионных задач и планирования движений с человеком в процессе работы (HITL-TAMP), которая интегрирует TAMP и телевидение в совместном использовании. Механизм управления через TAMP, используемый устройством, позволяет собирать демонстрации, переключаясь между системой TAMP и оператором телевидения человека. Важно, что система TAMP запрашивает у операторов человека участие только в определенных точках рабочего плана, чтобы они могли управлять группой роботов, асинхронно взаимодействуя с одной сессией демонстрации за раз. Техника значительно увеличивает производительность сбора данных. Упрощается сбор огромных наборов данных о длительном горизонте и задачах с множеством контактов, запрашивая демонстрации человека только тогда, когда они необходимы. Для обучения TAMP-управляемой стратегии с использованием данных человека они интегрируют свою систему сбора данных с каркасом подражания обучению. В отношении необходимых данных для обучения задачи роботу, времени, необходимого для обучения задаче и успешности обученных политик они показывают, что это приводит к лучшим результатам, чем сбор демонстраций человека по всей задаче.

Исследователи испытали систему HITL-TAMP по сравнению со стандартной системой телевидения с 15 участниками. С помощью их метода пользователи могли одновременно получить более трех раз демонстраций. Всего 10 минут данных от неопытного оператора телевизора можно использовать для обучения агентов со свыше 75% успехом. HITL-TAMP часто создает практически идеальных агентов, собирая 2,1 тысячи демонстраций, охватывающих 12 задач с множеством контактов и длительным горизонтом, таких как приготовление кофе в реальном мире.

По сравнению со сбором демонстраций человека по всей работе, эффективность сбора данных и обучения политик в HITL-TAMP значительно увеличивается за счет комбинации TAMP и телевидения.