Встречайте LEO Революционный мульти-модальный агент воплощенного виртуального присутствия для интеракции с 3D-миром и решения задач

Познакомьтесь с LEO революционным мульти-модальным агентом для воплощенного виртуального присутствия в 3D-мире и решения задач

Искусственный интеллект, способный выполнять несколько задач или областей без значительной перенастройки или повторного обучения, является агентом-универсалистом. Эти агенты стремятся обобщить знания и навыки в различных областях, проявляя гибкость и адаптивность в решении разных проблем. Симуляции для обучения или научных целей часто включают 3D-среды. Универсалистические агенты в таких симуляциях могут адаптироваться к различным сценариям, учиться из опыта и выполнять задачи в виртуальном пространстве. Например, в симуляциях для обучения пилотов или хирургов эти агенты могут воспроизводить различные сценарии и реагировать соответствующим образом.

Одной из проблем, с которыми сталкиваются универсалистические агенты в 3D-мирах, является обработка сложности трехмерных пространств, обучение надежных представлений, обобщающихся на разные среды, и принятие решений, учитывающих многомерную природу окружающей среды. Эти агенты часто используют техники из обучения с подкреплением, компьютерного зрения и пространственного мышления для эффективной навигации и взаимодействия в этих средах.

Исследователи из Пекинского института общего искусственного интеллекта, CMU, Пекинского университета и Цинхуа Университета предлагают универсальный агент по имени LEO, обученный на основе архитектуры LLM. LEO является универсально олицетворенным, мультимодальным и мультитасочным агентом. LEO может воспринимать, обосновывать, рассуждать, планировать и действовать с использованием общих архитектур моделей и весов. LEO воспринимает через эгоцентрический двумерный кодировщик изображения для олицетворенного вида и объектно-центрический трехмерный кодировщик облака точек для олицетворенного глобального взгляда.

С использованием обучения с авторегрессионными задачами, LEO также может обучаться с особенностями ввода и вывода, не связанными с задачей. Кодировщик 3D генерирует объектно-центрический токен для каждой наблюдаемой сущности. Этот дизайн кодировщика может гибко адаптироваться к задачам с различными олицетворениями. LEO основан на основном принципе согласования трехмерного зрения и языка, а также трехмерного зрения, языка и действия. Для получения обучающих данных команда отобрала и создала обширный набор данных, включающий многомодальные задачи на уровне объекта и сцены с превышающими масштабы и сложностью, требующий глубокого понимания и взаимодействия с трехмерным миром.

Команда также предложила методы поддержки на основе графа сцены и уточнения, а также объектно-центрическую цепочку размышления (O-CoT), чтобы улучшить качество сгенерированных данных, значительно обогатить масштаб и разнообразие данных, а также устранить галлюцинации LLM. Команда провела обширное оценивание LEO и продемонстрировала его опытность в различных задачах, включая навигацию и манипуляцию роботов. Они также наблюдали последовательное улучшение производительности только за счет увеличения объема обучающих данных.

Результаты показывают, что ответы LEO содержат богатые и информативные пространственные отношения и точно ориентируются в 3D-сценах. Мы видим, что в LEO присутствуют конкретные объекты, находящиеся в сценах, а также конкретные действия, связанные с этими объектами. LEO может устранить разрыв между трехмерным зрением и языком движения, как показывают результаты команды, демонстрирующие возможность их совместного обучения.