Google DeepMind выпустила Open X-Embodiment, который включает набор данных по робототехнике с более чем 1 миллионом траекторий и обобщенную модель искусственного интеллекта (𝗥𝗧-Х), чтобы помочь в развитии способностей роботов к освоению новых навыков

Google DeepMind представляет Open X-Embodiment объединение данных по робототехнике с более чем 1 миллионом траекторий и моделью искусственного интеллекта (𝗥𝗧-Х), улучшающее способности роботов к освоению новых навыков

Последние достижения в области искусственного интеллекта и машинного обучения демонстрируют способность к масштабному обучению на основе разнообразных и обширных наборов данных для создания чрезвычайно эффективных систем искусственного интеллекта. Лучшими примерами являются создание универсальных моделей с предварительным обучением, которые часто превосходят своих узкоспециализированных аналогов, обученных на более маленьких, специфических наборах данных. По сравнению с моделями, обученными на специализированных и ограниченных данных, алгоритмы классификации изображений и крупные языковые модели с открытым словарём показывают более высокую производительность.

Однако сбор сопоставимых наборов данных для взаимодействия с роботами является сложной задачей, в отличие от компьютерного зрения и обработки естественного языка, где большие наборы данных могут быть легко получены из Интернета. Даже самые обширные исследовательские проекты по сбору данных в робототехнике часто дают результаты, включающие намного более маленькие и менее разнообразные наборы данных, чем в случае оценки задач компьютерного зрения и обработки естественного языка.

Для преодоления преград в робототехнике и перехода к масштабной работе с данными, аналогичной успешной практике в других областях, команда исследователей предложила решение, вдохновленное обобщением, достигнутым благодаря предварительному обучению крупных моделей компьютерного зрения или языка на разнообразных наборах данных. Команда представила свою Открытую X-эмбодименс (OXE) репозиторию, которая включает в себя набор данных, содержащий 22 различных робототехнических формы от 21 учреждений, а также инструменты с открытым исходным кодом для облегчения дальнейших исследований по моделям X-эмбодимент. Этот набор данных содержит более 500 навыков и 150 000 задач, охватывающих более 1 миллиона эпизодов. Основная цель заключается в демонстрации того, что политики, обученные с использованием данных различных роботов и окружений, могут получать пользу от положительного переноса и показывать более высокую производительность, чем политики, обученные только на данных отдельного оценивающего комплекта.

Исследователи обучили высокоемкую модель RT-X на этом наборе данных. Основные результаты исследования демонстрируют, что RT-X проявляет положительный перенос. Благодаря использованию знаний, полученных от различных робототехнических платформ, его обучение на этом широком наборе данных позволяет улучшить возможности нескольких роботов. Этот результат подразумевает, что создание универсальных правил робототехники, гибких и эффективных в различных робототехнических средах, является осуществимым.

Команда использовала разнообразные робототехнические наборы данных для обучения двух моделей. Модель большого объема RT-2 на основе видео и языка, а также эффективная модель на основе трансформера RT-1 были обучены для выполнения действий робота в 7-мерном векторном формате, представляющем позицию, ориентацию и данные, связанные с захватом. Эти модели предназначены для облегчения ручной работы с объектами роботами. Они также способствуют лучшей обобщаемости для широкого спектра робототехнических приложений и сценариев.

В заключение исследования обсуждается идея комбинирования моделей с предварительным обучением в робототехнике, аналогично успешной практике в областях обработки естественного языка и компьютерного зрения. Экспериментальные результаты показывают потенциальную эффективность этих качественных X-стратегий в контексте робототехнической манипуляции.