Познакомьтесь с JARVIS-1 Многофункциональными агентами с открытым миром и моделированием языка с мультимодальным расширением памяти.

Знакомьтесь с JARVIS-1 многофункциональными агентами с открытым миром и моделированием языка, обладающими мультимодальным расширением памяти.

<img alt=”” src=”https://ai.miximages.com/www.marktechpost.com/wp-content/uploads/2023/11/Screenshot-2023-11-17-at-10.13.01-PM-1024×554.png”/><img alt=”” src=”https://ai.miximages.com/www.marktechpost.com/wp-content/uploads/2023/11/Screenshot-2023-11-17-at-10.13.01-PM-150×150.png”/><p>Команда исследователей из Пекинского университета, UCLA, Пекинского университета почты и телекоммуникаций и Пекинского института общего искусственного интеллекта представляет JARVIS-1, мультимодального агента, разработанного для выполнения задач в Minecraft в открытом мире. Используя обученные мультимодальные языковые модели, JARVIS-1 интерпретирует визуальные наблюдения и человеческие инструкции, создавая сложные планы для управления.

<p>JARVIS-1 использует мультимодальные входные данные и языковые модели для планирования и управления. Разработанный на основе обученных мультимодальных языковых моделей, JARVIS-1 интегрирует мультимодальную память для планирования на основе заранее обученных знаний и опыта в игре. Достигая почти идеальной производительности на 200 различных задачах, он заметно преуспевает в сложной задаче со знаком длинного горизонта, увеличивая показатель выполнения в пять раз. Исследование подчеркивает значение мультимодальной памяти в усилении автономии агента и общего интеллекта в открытых сценариях.

<p>Исследование решает проблемы, связанные с созданием сложных агентов для выполнения сложных задач в открытом мире. Существующие подходы нуждаются в помощи мультимодальных данных, долгосрочного планирования и пожизненного обучения. Предлагаемый агент JARVIS-1, созданный на основе обученных мультимодальных языковых моделей, превосходит в задачах Minecraft. JARVIS-1 достигает почти идеальной производительности в более чем 200 задачах, существенно улучшая задачу со знаком длинного горизонта. Агент демонстрирует самостоятельное обучение, развиваясь с минимальным внешним вмешательством, что способствует стремлению к общей способности искусственного интеллекта.

<p>JARVIS-1, созданный на основе обученных мультимодальных языковых моделей, комбинирует визуальные и текстовые вводы для создания планов. Мультимодальная память агента интегрирует заранее обученные знания с опытом в игре для планирования. Существующие подходы используют иерархическую архитектуру выполнения целей и большие языковые модели в качестве высокоуровневых планировщиков. JARVIS-1 оценивается на 200 задачах из Minecraft Universe Benchmark, выявляя проблемы в функциях с бриллиантами из-за несовершенного выполнения короткосрочных текстовых инструкций контроллером.

<p>Мультимодальная память JARVIS-1 способствует самосовершенствованию, улучшая общий интеллект и автономию, превосходя других агентов, следующих инструкции. JARVIS-1 превосходит DEPS без памяти в сложных задачах, и показатель успеха в задачах, связанных с бриллиантами, увеличивается почти втрое. Исследование подчеркивает важность улучшения генерации планов для более легкого выполнения и улучшения способности контроллера следовать инструкциям, особенно в задачах, связанных с бриллиантами.

<p>JARVIS-1, агент открытого мира, созданный на основе обученных мультимодальных языковых моделей, виртуозно владеет мультимодальным восприятием, созданием планов и управлением внутри игровой вселенной Minecraft. Интеграция мультимодальной памяти повышает качество принятия решений, используя заранее обученные знания и реальные опыты. JARVIS-1 значительно увеличивает показатели выполнения задач, таких как задача со знаком длинного горизонта бриллиантовой кирки, превосходя предыдущие рекорды вплоть до пяти раз. Этот прорыв является отправной точкой для будущих разработок многообластных и адаптивных агентов в сложных виртуальных средах.

<p>Дальнейшие исследования предлагают улучшить генерацию планов для выполнения задач, улучшить способность контроллера следовать инструкциям в задачах, связанных с бриллиантами, и исследовать методы облегчения выполнения. Предлагается изучить способы повышения принятия решений в открытых сценариях через мультимодальную память и реальные опыты. Рекомендуется расширение возможностей JARVIS-1 для более широкого спектра задач в Minecraft и потенциальной адаптации в других виртуальных средах. Исследование поддерживает непрерывное улучшение через пожизненное обучение, способствуя самосовершенствованию и развитию более общего интеллекта и автономии в JARVIS-1.</p>