Исследователи из NVIDIA и Университета Техаса в Остине представили MimicGen автономную систему генерации данных для робототехники.

NVIDIA и Университет Техаса в Остине представили MimicGen инновационная автономная система генерации данных для робототехники

Обучение роботов выполнению различных манипуляционных действий стало возможным благодаря имитационному обучению с помощью демонстраций человека. Одним из популярных методов является телеоперация роботических рук с помощью различных интерфейсов управления, при которой человеческие операторы выполняют множество демонстраций роботов, выполняющих различные манипуляционные задачи, а затем используют полученные данные для обучения роботов выполнению этих задач самостоятельно. В более поздних работах предпринимались попытки масштабировать эту парадигму, собирая больше данных с более крупной группой человеческих операторов в более широком диапазоне функций. Эти работы показали, что имитационное обучение на больших и разнообразных наборах данных может привести к впечатляющим результатам, позволяющим роботам обобщать на новые объекты и незнакомые задачи.

Это означает, что собирание обширных и богатых наборов данных является важным первым шагом в создании широкоиспользуемых роботов. Но это достигается только с помощью дорогостоящей и трудоемкой работы человека. Рассмотрим кейс-стади, в котором задача агента состоит в перемещении банки с колой из одного бака в другой. Несмотря на то, что здесь только одна сцена, один предмет и один робот, для достижения уважаемого показателя успешности в 73,3% потребовался значительный набор данных из 200 демонстраций. Для недавних попыток расширения настройки с помощью различных сценариев и предметов требовались более крупные наборы данных, включающие десятки тысяч демонстраций. Например, это показывает, что при помощи набора данных из более чем 20 000 траекторий можно обобщить задачи с незначительными изменениями в объектах и целях.

Рисунок 1: Исследователи представляют систему по производству данных, которая, путем использования перестроения демонстраций человека, делает их полезными в новых контекстах и может генерировать обширные и разнообразные наборы данных из небольшого числа демонстраций человека. Они используют MimicGen, чтобы предоставить данные для различных предметов, роботических инструментов и сценариев.

На протяжении примерно 1,5 года в работе по сбору данных от RT-1 были задействованы несколько человеческих операторов, кухонь и роботических рук для создания правил, позволяющих успешно переставлять, чистить и восстанавливать предметы в нескольких кухнях с успехом в 97%. Однако, количество лет, необходимое для сбора достаточного количества данных для реализации такой системы в реальных кухнях, все еще не известно. Они задаются вопросом: «В какой степени эти данные включают различные манипуляционные действия?» Эти наборы данных могут включать сходные методики изменения, применяемые в различных ситуациях. Например, при хватании чашки человеческие операторы могут показывать очень схожие траектории робота, независимо от расположения кружки на столешнице.

Приспособление этих траекторий к разным ситуациям может помочь создать разнообразие действий. Хотя это обнадеживающе, применение этих подходов ограничено их предположениями относительно определенных задач и алгоритмов. Вместо этого они хотят создать универсальную систему, которая может легко включаться в существующие процессы имитационного обучения и улучшать результаты различных действий. В этом исследовании они предлагают уникальную технику сбора данных, которая автоматически создает массивные наборы данных для множества сценариев, используя небольшое количество примеров человека. Их методика, MimicGen, разбивает ограниченное количество демонстраций человека на части, сосредоточенные на объектах.

Затем выбирается одна из демонстраций человека, каждая часть, сосредоточенная на объекте, пространственно изменяется, затем они сшиваются вместе, и роботу указывается следовать этому новому маршруту для сбора свежей демонстрации в новом сценарии с различными положениями объектов. Несмотря на свою простоту, они обнаружили, что эта техника очень хорошо подходит для создания больших наборов данных из разных сценариев. Эти наборы данных могут быть использованы для имитационного обучения для обучения компетентных агентов.

Их вклад включает следующее:

• Исследователи из NVIDIA и UT Austin представляют технологию MimicGen, которая использует новое адаптивное приспособление к ситуации для создания обширных и разнообразных наборов данных на основе ограниченного числа демонстраций человека.

• Они показывают, что MimicGen может предоставлять высококачественные данные для различных конфигураций сцен, экземпляров объектов и роботических рук – все это не включено в исходные демонстрации, чтобы обучать опытных агентов с помощью имитационного обучения (см. Рисунок 1). Вставка и исключение предметов и взаимодействие с артикулированными объектами – это лишь несколько примеров множества долгосрочных и высокоточных действий, которые MimicGen может успешно выполнять и которые требуют отдельных навыков манипуляции. Используя всего 200 исходных демонстраций человека, они создали более 50 тысяч дополнительных демонстраций для 18 задач, охватывающих двух симуляторов и реальную роботическую руку.

• Их метод выполняет сравнимую с альтернативой собирать больше человеческих демонстраций; это вызывает серьезные опасения о том, когда необходимо запрашивать дополнительные данные у человека. Использование MimicGen для генерации равного количества синтетических данных (например, 200 демонстраций, сгенерированных из 10 человек по сравнению с 200 демонстрациями от людей) приводит к сопоставимым результатам работы агента.