Познакомьтесь с GROOT мощной средой обучения с имитацией для визуального манипулирования на основе объектно-ориентированных приоритетов 3D с адаптивной обобщенной политикой.

Познакомьтесь с GROOT – мощной средой обучения с имитацией для визуального манипулирования на основе объектно-ориентированных приоритетов 3D и адаптивной обобщенной политикой

С ростом популярности и применимости искусственного интеллекта, имитационное обучение (IL) показало себя как успешная техника обучения нейронных сетей основанным на зрительно-моторных стратегиях, способных выполнять сложные манипуляционные задачи. Проблема создания роботов, способных выполнять широкий спектр манипуляционных задач, долгое время беспокоила робототехническое сообщество. Роботы сталкиваются с разнообразными составляющими реальной среды, включая меняющиеся ракурсы камеры, изменяющиеся фоны и появление новых объектов. Эти различия в восприятии часто становятся препятствием для традиционных методов робототехники.

Улучшение устойчивости и адаптивности алгоритмов IL к внешним переменным крайне важно для использования их возможностей. Предыдущие исследования показали, что даже незначительные изменения визуальной среды, включая изменение цвета фона, изменение точки зрения камеры или появление новых объектов, могут повлиять на политики обучения end-to-end, что приводит к тому, что политики IL обычно оцениваются в контролируемых условиях с использованием камер, которые правильно откалиброваны и имеют фиксированные фоны.

Недавно команда исследователей из Университета штата Техас в Остине и Sony AI представили GROOT – уникальную технику имитационного обучения, которая создает эффективные стратегии для манипуляционных задач с участием зрения. Она решает проблему успешного функционирования роботов в реальных условиях, где часто происходят изменения фона, точки зрения камеры и вводится новые объекты, среди прочих изменений в восприятии. Для преодоления этих препятствий GROOT сосредотачивается на построении объектно-центричных 3D-представлений и принятии решений на их основе с использованием модели на основе трансформации, а также предлагает модель связи для сегментации, которая позволяет обобщать правила на новые объекты при тестировании.

Разработка объектно-центричных 3D-представлений является основой новаторства GROOT. Эти представления направлены на направление восприятия робота, помощь ему сосредоточиться на элементах, имеющих значение для задачи, и блокировать визуальные отвлекающие факторы. GROOT дает роботу крепкую основу для принятия решений, мысление в трех измерениях предоставляет ему более интуитивное понимание окружающей среды. GROOT использует трансформаторный подход для принятия решений на основе этих объектно-центричных 3D-представлений. Он эффективно анализирует 3D-представления и делает выводы, что является значительным шагом к предоставлению роботам более сложных когнитивных способностей.

GROOT способен обобщаться за пределами начальных настроек обучения и хорошо приспосабливаться к разным фонам, углам камеры и наличию объектов, которые ранее не видел, в то время как многие методы обучения роботов негибки и испытывают трудности в таких условиях. GROOT – исключительное решение для сложных проблем, с которыми сталкиваются роботы в реальном мире благодаря своим исключительным потенциалом обобщения.

Команда протестировала GROOT с помощью ряда обширных исследований. Эти тесты тщательно оценивают возможности GROOT как в имитационной, так и в реальной среде. Это показало выдающиеся результаты в имитационных ситуациях, особенно при наличии изменений восприятия. Он превосходит последние техники, такие как тактики на основе предложения объекта и методологии обучения end-to-end.

В заключение, в области робототехники видения и обучения GROOT является значительным прогрессом. Его фокус на устойчивости, адаптивности и обобщении в реальных сценариях может сделать возможными множество приложений. GROOT успешно решает проблемы надежной робототехнической манипуляции в динамическом мире и позволяет роботам эффективно функционировать в сложных и динамических средах.