Это исследование по искусственному интеллекту представляет метод ВЛП (видео-языковое планирование) новейший подход, основанный на древовидном поисковом процессе с использованием моделей визуального языка и динамикой текста-видео.

Новейший подход к искусственному интеллекту метод ВЛП (видео-языковое планирование) на основе древовидного поискового процесса с использованием моделей визуального языка и динамикой текста-видео

С постоянным развитием применения искусственного интеллекта, генеративные модели развиваются со скоростью света. Идея интеллектуального взаимодействия с физическим окружением является предметом обсуждения, поскольку она подчеркивает важность планирования на двух разных уровнях: низкоуровневой базовой динамики и высокоуровневых семантических абстракций. Эти два уровня необходимы для правильного управления роботическими системами для выполнения действий в реальном мире.

Идея разделения проблемы планирования на эти два уровня давно признана в робототехнике. В результате было разработано множество стратегий, включая комбинирование движения с задачным планированием и определение правил управления для сложных манипуляционных задач. Эти методы стремятся создавать планы, учитывающие цели работы и динамику реальной среды. Говоря о LLM, эти модели могут создавать высокоуровневые планы с использованием символьных описаний задач, но испытывают трудности при их реализации. Когда речь идет о более конкретных аспектах задач, таких как формы, физика и ограничения, они не способны рассуждать.

В недавнем исследовании команда ученых из Google Deepmind, MIT и UC Berkeley предложила объединить модели текст-видео и видео-языковые модели (VLM), чтобы преодолеть недостатки. Совмещая преимущества обеих моделей, была представлена эта интеграция, известная как Планирование видео-языка (VLP). VLP был представлен с целью облегчить визуальное планирование для задач с дальней перспективой и сложных задач. Этот метод использует последние достижения в области огромных генеративных моделей, которые прошли обширное предварительное обучение на данных интернета. Основная цель VLP – упростить планирование задач, требующих длинных последовательностей действий и понимания как в области языка, так и визуальных данных. Эти задачи могут включать в себя все, начиная с простого перестановки объектов, заканчивая выполнением сложных операций робототехнической системы.

Основой VLP является процесс деревообходного поиска, который имеет две основные части:

  1. Модели визуально-языкового общения: эти модели выполняют роль функций ценности и политик и поддерживают создание и оценку планов. Они способны предложить следующий шаг для выполнения работы после понимания описания задачи и доступной визуальной информации.
  1. Модели текст-видео: эти модели являются динамическими моделями, поскольку они способны предвидеть, какие решения окажут влияние. Они прогнозируют потенциальные результаты, полученные из поведения, рекомендованного моделями визуально-языкового общения.

VLP использует два основных входа: долгосрочную инструкцию задачи и текущие визуальные наблюдения. Результатом работы VLP является полный и подробный видео-план, который предоставляет пошаговые инструкции для достижения конечной цели, объединяя языковые и визуальные особенности. Он хорошо справляется с разрывом между письменным описанием работы и визуальным пониманием.

VLP может выполнять различные виды деятельности, включая двуручную манипуляцию и многократную перестановку объектов. Эта гибкость демонстрирует широкий спектр потенциальных применений данного подхода. Реальные робототехнические системы могут реально реализовывать созданные видео-планы. Преобразование виртуального плана в фактические действия робота облегчают правила, связанные с целью. Эти правила позволяют роботу выполнять задачу пошагово, используя каждый промежуточный кадр видео-плана в качестве руководства для своих действий.

При сравнении экспериментов, использующих VLP, с предыдущими техниками, было замечено значительное увеличение успешности задач с дальней перспективой. Эти исследования проводились на реальных роботах, использующих три различные аппаратные платформы, и в симулированных ситуациях.