Исследователи из Стэнфорда предлагают EquivAct прорыв в обучении роботов для обобщения задач по разным масштабам и ориентациям.
Ученые из Стэнфордского Университета представляют EquivAct новый прорыв в обучении роботов для выполнения задач с различными масштабами и ориентациями.
“`html
Люди могут экстраполировать и учиться решать вариации задач манипуляции, если объекты, с которыми они имеют дело, имеют различные визуальные или физические атрибуты, основанные на нескольких примерах того, как завершить задачу с использованием стандартных объектов. Чтобы сделать изученные политики универсальными для различных масштабов объектов, ориентаций и визуального появления, существующим исследованиям по обучению роботов все еще необходим значительный объем данных. Несмотря на эти усовершенствования, обобщение на недоступные вариации не гарантировано.
Stanford University провела новое исследование, посвященное проблеме нулевого обучения визуомоторной политики, которая может принимать в качестве входных данных небольшое количество образцовых траекторий из одного сценария манипуляции и обобщаться до сценариев с невидимыми визуальными атрибутами, размерами и положениями объекта. В частности, было важно научиться управлять деформируемыми и артикулированными объектами, такими как одежда или коробки, в дополнение к жестким объектам, таким как взятие и размещение. Чтобы обеспечить надежность изученной политики для различных образцов размещения объектов, ориентаций и масштабов, предложение заключалось в включении эквивариантности в визуальное представление объекта и архитектуру политики.
Они представляют EquivAct, новый подход к обучению визуомоторной политики, который может изучать политики взаимодействия с трехмерными объектами из демонстраций в одном сценарии манипуляции и обобщаться до невидимых сценариев. Изученная политика принимает на вход конечные постуры робота и частичное облако точек окружающей среды и на выходе выдает действия робота, такие как скорость конечного эффектора и команды схватчика. В отличие от большинства предыдущих работ, исследователи использовали архитектуры сетей сим (3)-соответствия для своих нейронных сетей. Это означает, что скорости конечного эффектора на выходе будут соответствующим образом регулироваться, когда входное облако точек и позиции конечного эффектора транслируются и поворачиваются. Поскольку их архитектура политики является эквивариантной, она может учиться на образцах меньших масштабов настольных действий, а затем нулевое обобщение до задачи мобильной манипуляции, включающей более крупные вариации продемонстрированных объектов с различными визуальными и физическими атрибутами.
- Как этот исследователь, удостоенный премии Тьюринга, стал легендарным научным руководителем
- Исследователи Apple представляют модели диффузии Матрёшка (MDM) комплекс искусственного интеллекта для синтеза изображений и видео высокого разрешения от начала до конца.
- Новое исследование ИИ из Китая представляет GLM-130B двуязычную (английский и китайский) предварительно обученную языковую модель с 130 миллиардами параметров.
Этот подход разделен на две части: изучение представления и политики. Чтобы обучить представление агента, команда сначала предоставляет ему набор синтетических облаков точек, которые были получены с использованием той же камеры и настроек, что и объекты целевой задачи, но с другим случайным неоднородным масштабом. Они дополнили обучающие данные, чтобы учесть неоднородное масштабирование, даже если предлагаемая архитектура соответствует равномерному масштабированию. В симулированных данных не обязательно должны присутствовать действия робота или показывать фактическую задачу. Для извлечения глобальных и локальных особенностей из облака точек сцены они используют симулированные данные для обучения сети кодировщик-декодировщик сим (3)-соответствия. Во время обучения для связующей потери для объединения локальных характеристик относятся связанные секции объектов в схожих позициях. Во время фазы обучения политике предполагалось, что доступ к выборке ранее проверенных траекторий задач ограничен.
Исследователи используют данные, чтобы обучить закрытую политику, которая при наличии частичного облака точек сцены, использует предварительно изученный кодировщик для извлечения глобальных и локальных особенностей из облака точек, а затем передает эти особенности в сеть прогнозирования действий SIM(3)-соответствия, чтобы прогнозировать движения конечного эффектора. Помимо стандартных задач манипуляции жесткими объектами, предлагаемый метод оценивается на более сложных задачах складывания одеял, накрытия контейнера и запечатывания коробки.
Команда представляет множество примеров таких действий над настольным объектом. После демонстрации метода они оценили его на платформе мобильной манипуляции, где роботы должны решить ту же проблему в намного большем масштабе. Исследования показывают, что этот метод способен изучать закрытую политику манипуляции роботом из демонстраций и выполнять целевую задачу в одном запуске без необходимости тонкой настройки. Кроме того, было продемонстрировано, что подход более эффективен и не зависит от значительного количества дополнений для обобщения к непредставленным позам и масштабам объектов. Он также превосходит работы, не использующие эквивариантность.
“`