Познакомьтесь с MotionLM от Waymo передовым подходом к предсказанию множества движущихся агентов, который может сделать возможным использование больших языковых моделей (LLM) для помощи в управлении автомобилями.
MotionLM от Waymo передовой подход к предсказанию множества движущихся агентов, с использованием больших языковых моделей (LLM) для помощи в управлении автомобилями
Авторегрессивные языковые модели превосходно справляются с предсказанием последующего подслова в предложении без необходимости в предопределенной грамматике или концепциях разбора. Этот метод был расширен на непрерывные области данных, такие как аудио и изображения, где данные представлены в виде дискретных токенов, подобно словарям моделей языка. Благодаря своей универсальности, последовательные модели привлекли интерес для использования в все более сложных и динамических контекстах, таких как поведение.
Участников дорожного движения можно сравнить с участниками непрерывного разговора при вождении, поскольку они обмениваются действиями и ответами. Вопрос в том, могут ли подобные последовательные модели быть использованы для прогнозирования поведения дорожных агентов так же, как модели языка отражают сложные распределения языка в разговорах. Разложение совместного распределения поведения агента на независимые маржинальные распределения по агентам является популярной стратегией прогнозирования поведения дорожных агентов. Несмотря на некоторый прогресс в этом направлении, эти прогнозы ограничены, поскольку они не учитывают, как будущие действия нескольких агентов будут влиять друг на друга, что может привести к непредсказуемым прогнозам на уровне сцены.
Для решения этих проблем группа исследователей из Waymo представила MotionLM, уникальный подход к прогнозированию будущего поведения дорожных агентов, что является важным аспектом безопасного планирования в автономных транспортных средствах. Основная идея MotionLM заключается в том, чтобы рассматривать задачу прогнозирования множества движений дорожных агентов как моделирование языка. Он ставит целью создание фраз на языке, где языком являются действия дорожных агентов.
- Используйте машинное обучение без кода для получения информации из отзывов о продуктах с использованием анализа настроений и текстовых моделей Amazon SageMaker Canvas.
- ИИ на Java Создание клонированного чата ChatGPT с помощью Spring Boot и LangChain
- Мультимодальное искусственное интеллекта развивается, когда ChatGPT обретает зрение с помощью GPT-4V(ision).
MotionLM осуществляет это без использования якорей или сложных процедур оптимизации скрытых переменных, в отличие от других существующих методов, которые полагаются на них для охвата различных потенциальных будущих поведений. Эта модель использует простую цель моделирования языка с целью максимизации средней логарифмической вероятности корректного предсказания последовательности токенов движения. Модель более доступна и проще в обучении благодаря своей простоте.
Многие современные методы используют двухэтапную процедуру, в которой сначала отдельно генерируются траектории отдельных агентов, а затем оценивается взаимодействие между агентами. В отличие от этого, MotionLM использует единственный авторегрессивный подход к непосредственному созданию совместных распределений будущих действий множества актеров. Это моделирование взаимодействия более эффективно и гармонично. Благодаря последовательной факторизации MotionLM также позволяет выполнять прогнозы относительно будущего поведения агентов, учитывая причинно-следственные связи между событиями, что повышает их реализм и точность.
При оценке MotionLM показал отличные результаты при тестировании на наборе данных Waymo Open Motion Dataset. Он занял первое место в рейтинге в интерактивном испытании, что показывает, что он работает лучше других подходов к прогнозированию действий дорожных агентов в сложных ситуациях. В заключение, MotionLM безусловно является инновационным подходом к прогнозированию множественных движений агентов для автономных транспортных средств и представляет реальное преимущество в этой области.