Эта статья об искусственном интеллекте из Китая предлагает агента планирования задач (TaPA) вкорененных задач для закрепленного планирования с физическими ограничениями сцены

Статья предлагает агента планирования задач (TaPA) для физического планирования с ограничениями сцены.

Как мы принимаем решения в повседневной жизни? Мы часто предвзяты на основе здравого смысла. А что насчет роботов? Могут ли они принимать решения на основе здравого смысла? Успешное выполнение инструкций человека требует наличия агентов с общим чувством. В связи с необходимостью получения более подробной информации о реалистичном мире, текущие LLM-ы не могут предложить выполнимые последовательности действий.

Исследователи из Департамента автоматизации и Пекинского национального научно-исследовательского центра информационных наук и технологий предложили планирующего агента задач (TaPA) в задачах с ограничениями физической сцены. Эти агенты генерируют исполнимые планы в соответствии с существующими объектами на сцене, выравнивая LLM-ы с моделями визуального восприятия.

Исследователи утверждают, что TaPA может генерировать обоснованные планы без ограничения типов задач и целевых объектов. Сначала они создали мультимодальный набор данных, где каждый образец представляет собой тройку визуальных сцен, инструкций и соответствующих планов. Из сгенерированного набора данных они донастроили предварительно обученную сеть LLaMA, предсказывая шаги действий на основе списка объектов сцены, которые далее назначаются планировщиком задач.

Затем воплощенный агент эффективно посещает точки обзора, чтобы собрать RGB-изображения, предоставляя достаточную информацию в различных ракурсах для обобщения детектора с открытой словарной базой для многопредставления изображений. Весь этот процесс позволяет TaPA генерировать исполнимые действия пошагово, учитывая информацию о сцене и инструкции человека.

Как они создали мультимодальный набор данных? Один из способов – использование моделей видео-языка и крупномасштабных мультимодальных моделей. Однако из-за отсутствия крупномасштабного мультимодального набора данных для обучения планирующего агента сложно создать и достичь планирования задач, основанного на реалистичных внутренних сценах. Они решили эту проблему, используя GPT-3.5 с представлением сцены и дизайн-подсказкой для генерации крупномасштабного мультимодального набора данных для настройки планирующего агента.

Исследователи обучили планирующего агента на основе предварительно обученных LLM-ов и создали мультимодальный набор данных, содержащий 80 внутренних сцен с 15 тыс. инструкций и планов действий. Они разработали несколько стратегий сбора изображений для исследования окружающих 3D-сцен, таких как критерии выбора местоположения для случайных позиций и поворачивающиеся камеры для получения многопредставления изображений для каждого критерия выбора местоположения. Вдохновленные методами кластеризации, они разделили всю сцену на несколько подрегионов для повышения производительности восприятия.

Исследователи утверждают, что агенты TaPA достигают более высокой успешности в генерации планов действий, чем современные LLM-ы, включая LlaMA и GPT-3.5, а также крупномасштабные мультимодальные модели, такие как LLaVA. TaPA лучше понимает список входных объектов с уменьшением на 26,7% и 5% процентного количества случаев галлюцинации по сравнению с LLaVA и GPT-3.5 соответственно.

Исследователи утверждают, что их статистика собранных мультимодальных наборов данных указывает на то, что задачи намного сложнее, чем традиционные бенчмарки по выполнению инструкций с более длинными шагами реализации и требуют дальнейших новых методов оптимизации.