Исследователи в Стэнфорде представляют RoboFuME революционное обучение роботов с минимальным вмешательством человека.

RoboFuME революция в обучении роботов с минимальным участием человека — открытие ученых Стэнфордского университета

Во многих областях, связанных с машинным обучением, широко успешная парадигма обучения моделей, специфичных для задач, заключается в предварительном обучении универсальной модели из имеющегося разнообразного набора данных и последующей настройке модели с добавлением небольшого объема данных, специфичных для задачи. Эта парадигма привлекательна для обучения роботов в реальном мире, так как сбор данных на роботе является дорогостоящим, и настройка существующей модели на небольшом наборе данных, специфичном для задачи, может значительно повысить эффективность обучения новой задаче. Предварительное обучение политики с помощью оффлайн-обучения с подкреплением, а затем настройка ее с помощью онлайн-обучения с подкреплением является естественным способом реализации этой парадигмы в робототехнике. Однако при использовании данного подхода возникают многочисленные проблемы в практике.

Во-первых, по сравнению с локальной платформой робота, готовые наборы данных для роботов часто используют разные объекты, расположение элементов крепления, ракурсы камер и условия освещения. Эффективная настройка политики робота становится сложной из-за нетривиальных сдвигов распределения между предварительным обучением и настройкой со взаимодействием онлайн. Большинство предыдущих исследований только подчеркивают преимущества парадигмы предварительного обучения и настройки модели, при которой робот использует один и тот же аппаратный экземпляр как для настройки, так и для предварительного обучения. Во-вторых, часто требуется значительное участие человека при обучении или настройке политики в реальном мире. Это управление включает в себя ручное сброс окружения между испытаниями и разработку функций вознаграждения.

Они стремятся решить эти две проблемы в данном исследовании и предоставить рабочую методику, позволяющую настраивать робота с минимальным участием человека и временными затратами. В последние несколько лет были сделаны значительные успехи в разработке эффективных и самоуправляющих алгоритмов для обучения с подкреплением. Однако только система может учиться с участием человека и различных наборов демонстраций без необходимости использования механизмов стимулирования, созданных человеком, и ручного сброса окружения. Оффлайн-обучение без сбросов (RL) – один из методов, предложенных в некоторых работах, для уменьшения необходимости в ручном сбросе окружения. Во время обучения агент чередует выполнение политики задачи и политики сброса, обновляя оба с помощью онлайн-опыта.

Однако в этих усилиях не используются различные коммерческие наборы данных для роботов. И хотя эти новые техники не были включены в систему, которая пытается минимизировать участие человека в процессе настройки политики, последние достижения в области алгоритмов оффлайн-обучения с подкреплением позволили политикам использовать различные оффлайн-данные и далее развиваться путем онлайн-настройки. Другие статьи предлагают использовать модели предсказания вознаграждения для замены требования к человеку-указанию функций вознаграждения; однако они обнаружили, что многие из этих моделей могут быть непрочными при использовании их в реальной среде онлайн-настройки RL. В заключение, хотя предыдущие исследования поставили необходимые отдельные компоненты для создания функциональной системы эффективного и бесплатного для человека обучения роботов, до сих пор не определено, какие компоненты и как их собрать.

Исследователи из Стэнфордского университета создали систему ROBOFUME, которая использует различные оффлайн-наборы данных и онлайн-настройку для обеспечения автономного и эффективного обучения роботов в реальном мире. Их система имеет две стадии работы. Они предполагают, что во время стадии предварительного обучения у них есть доступ к разнообразному базовому набору данных, небольшой коллекции примеров неудач в целевой задаче, нескольким демонстрациям задачи и демонстрациям сброса целевой задачи. Из этого возникает языкозависимая политика обучения оффлайн с подкреплением для выполнения нескольких задач. Они требуют алгоритма, который может как надежно настраивать модель в окружениях, отличных от тех, которые виделись в оффлайн-наборе данных, так и эффективно используя гетерогенные оффлайн-данные для обработки сдвига распределения между оффлайн-взаимодействиями и онлайн-взаимодействиями.

Они обнаруживают, что откалиброванные методы оффлайн-обучения с подкреплением обеспечивают эффективную обработку различных оффлайн-данных предобученной политикой и продолжают улучшаться во время онлайн-адаптации путем коррекции масштаба изученных значений Q и недооценки предсказанных значений обученной политики по данным оффлайн. Они должны исключить необходимость в инженерии вознаграждения путем разработки предсказателя вознаграждения, чтобы гарантировать, что фаза онлайн-настройки требует как можно меньше участия человека.

Их умный подход заключается в использовании достаточно объемной модели обработки изображений с языковой моделью (VLM), чтобы обеспечить надежное предварительно обученное представление, а затем уточнить его с помощью небольшого количества данных доменной области, чтобы сделать его специфичным для сценария классификации награды. Предварительно обученные VLM уже обучаются с использованием обширных лингвистических и визуальных данных из интернета. По сравнению с моделями, используемыми в предыдущих исследованиях, это делает модель более устойчивой к изменению освещения и расположения камеры. Во время стадии настройки модели робот независимо настраивает политику в реальном мире, чередуя испытания выполнения задачи и восстановления окружения до его исходного распределения состояний. В то же время агент обновляет процедуру, используя предварительно обученную модель VLM в качестве временной награды.

Чтобы оценить свою структуру, они предварительно обучают ее на наборе данных Bridge, а затем тестируют ее на различных реальных задачах, таких как складывание и покрытие тканью, подбор и размещение губок, накрытие крышками кастрюль и помещение их в раковины. Они обнаруживают, что с всего лишь тремя часами инструктажа вживую их стратегия предлагает заметные преимущества перед техниками, использующими только офлайн-обучение. В симуляционной среде они проводят дополнительные количественные испытания, чтобы показать, что их стратегия работает лучше, чем подражательное обучение и офлайн-обучение с подкреплением, которые либо не настраиваются в режиме онлайн, либо не используют разнообразие предыдущих данных.

Полностью автономная система предварительного обучения на основе ранее созданного набора данных робота и дальнейшей настройки на неизвестную последующую задачу с минимальным количеством сбросов и обученными метками вознаграждения – это один из их основных вкладов. Во-вторых, они разработали технику для уточнения моделей визуального языка, которые уже были обучены, и использовали их для создания заместительного вознаграждения для обучения с подкреплением на низшем уровне.