Исследователи университета Техаса в Остине представляют LIBERO исследовательскую платформу для всестороннего изучения передачи знаний в принятии решений и робототехнике на протяжении всей жизни.

Университет Техаса в Остине представляет LIBERO - платформу для углубленного изучения передачи знаний в принятии решений и робототехнике на протяжении всей жизни

“`html

LIBERO, бенчмарк по продолжительному обучению в области робототехники, фокусируется на передаче знаний в декларативной и процедурной областях. Он представляет пять ключевых исследовательских областей в продолжительном обучении для принятия решений (LLDM) и предлагает конвейер генерации процедурных задач с четырьмя комплектами задач, включающими 130 задач. Эксперименты показывают превосходство последовательного дообучения над существующими методами LLDM для прямой передачи. Производительность архитектуры визуального кодера варьируется, а наивное надзорное предобучение может затруднять агентов в LLDM. Бенчмарк включает высококачественные данные о демонстрации, выполняемые человеком по телепередаче, для всех задач.

Исследователи из Университета Техаса в Остине, Sony AI и Университета Цинхуа занимаются разработкой универсального агента продолжительного обучения, способного выполнять широкий спектр задач. Их исследование представляет собой LIBERO, бенчмарк, фокусирующийся на продолжительном обучении для принятия решений в робототехнике. В отличие от существующей литературы, акцентирующей декларативную передачу знаний, LIBERO исследует передачу декларативных и процедурных знаний. Он предлагает конвейер генерации процедурных задач и высококачественные данные о демонстрации, выполняемые человеком по телепередаче. Он направлен на исследование основных областей LLDM, таких как передача знаний, проектирование нейроархитектуры, проектирование алгоритмов, устойчивость к порядку задач и использование предобученных моделей.

В продолжительном обучении роботов было применено три сети видео-языковой политики: RESNET-RNN, RESNET-T и VIT-T. Эти сети интегрируют визуальные, временные и языковые данные для обработки задачных инструкций. Языковые инструкции кодировались с использованием предварительно обученных вложений BERT. RESNET-RNN объединяет ResNet и LSTM для визуальной и материальной обработки. RESNET-T использует ResNet и декодер-трансформатор для последовательностей видимых и временных токенов. VIT-T использует Vision Transformer для визуальных данных и декодер-трансформатор для временных данных. Обучение политики для отдельных задач достигается путем клонирования поведения, облегчая эффективное обучение политике при ограниченных вычислительных ресурсах.

Его исследование сравнивает нейроархитектуры для продолжительного обучения в задачах принятия решений, RESNET-T и VIT-T превосходят RESNET-RNN, подчеркивая эффективность трансформеров для обработки временных данных. Производительность варьируется в зависимости от алгоритма продолжительного обучения: PACKNET не показал значительной разницы между RESNET-T и VIT-T, за исключением комплекта задач LIBERO-LONG, где VIT-T превосходит. Однако RESNET-T превосходит VIT-T на всех наборах задач, кроме LIBERO-OBJECT, что подчеркивает способность ViT обрабатывать разнообразную визуальную информацию. Последовательное дообучение оказалось превосходным в прямой передаче, тогда как наивное надзорное предобучение затрудняло агентов, что подчеркивает необходимость стратегического предварительного обучения.

В заключение, предложенный ими метод, LIBERO, является ключевым бенчмарком для продолжительного обучения роботов, который затрагивает ключевые исследовательские области и предлагает ценные идеи. Заметные результаты включают эффективность последовательного дообучения, влияние архитектуры визуального кодера на передачу знаний и ограничения наивного надзорного предобучения. Их работа предлагает многообещающие направления для проектирования нейроархитектуры, улучшения алгоритмов для прямой передачи и использования предварительного обучения. Кроме того, она подчеркивает важность долгосрочной конфиденциальности пользовательских данных в контексте продолжительного обучения на основе взаимодействия с человеком.

В дальнейшем исследования должны быть сосредоточены на создании более эффективных нейроархитектур для обработки пространственных и временных данных. Развитие передовых алгоритмов для укрепления возможностей прямой передачи является необходимым. Кроме того, исследование методов предварительного обучения для улучшения производительности продолжительного обучения остается важным направлением исследований. Эти усилия являются ключевыми для продвижения области продолжительного обучения роботов и принятия решений, улучшения эффективности и адаптивности.

“`