Познакомьтесь с MotionLM от Waymo передовым подходом к предсказанию множества движущихся агентов, который может сделать возможным использование больших языковых моделей (LLM) для помощи в управлении автомобилями.

MotionLM от Waymo передовой подход к предсказанию множества движущихся агентов, с использованием больших языковых моделей (LLM) для помощи в управлении автомобилями

Авторегрессивные языковые модели превосходно справляются с предсказанием последующего подслова в предложении без необходимости в предопределенной грамматике или концепциях разбора. Этот метод был расширен на непрерывные области данных, такие как аудио и изображения, где данные представлены в виде дискретных токенов, подобно словарям моделей языка. Благодаря своей универсальности, последовательные модели привлекли интерес для использования в все более сложных и динамических контекстах, таких как поведение.

Участников дорожного движения можно сравнить с участниками непрерывного разговора при вождении, поскольку они обмениваются действиями и ответами. Вопрос в том, могут ли подобные последовательные модели быть использованы для прогнозирования поведения дорожных агентов так же, как модели языка отражают сложные распределения языка в разговорах. Разложение совместного распределения поведения агента на независимые маржинальные распределения по агентам является популярной стратегией прогнозирования поведения дорожных агентов. Несмотря на некоторый прогресс в этом направлении, эти прогнозы ограничены, поскольку они не учитывают, как будущие действия нескольких агентов будут влиять друг на друга, что может привести к непредсказуемым прогнозам на уровне сцены.

Для решения этих проблем группа исследователей из Waymo представила MotionLM, уникальный подход к прогнозированию будущего поведения дорожных агентов, что является важным аспектом безопасного планирования в автономных транспортных средствах. Основная идея MotionLM заключается в том, чтобы рассматривать задачу прогнозирования множества движений дорожных агентов как моделирование языка. Он ставит целью создание фраз на языке, где языком являются действия дорожных агентов.

MotionLM осуществляет это без использования якорей или сложных процедур оптимизации скрытых переменных, в отличие от других существующих методов, которые полагаются на них для охвата различных потенциальных будущих поведений. Эта модель использует простую цель моделирования языка с целью максимизации средней логарифмической вероятности корректного предсказания последовательности токенов движения. Модель более доступна и проще в обучении благодаря своей простоте.

Многие современные методы используют двухэтапную процедуру, в которой сначала отдельно генерируются траектории отдельных агентов, а затем оценивается взаимодействие между агентами. В отличие от этого, MotionLM использует единственный авторегрессивный подход к непосредственному созданию совместных распределений будущих действий множества актеров. Это моделирование взаимодействия более эффективно и гармонично. Благодаря последовательной факторизации MotionLM также позволяет выполнять прогнозы относительно будущего поведения агентов, учитывая причинно-следственные связи между событиями, что повышает их реализм и точность.

При оценке MotionLM показал отличные результаты при тестировании на наборе данных Waymo Open Motion Dataset. Он занял первое место в рейтинге в интерактивном испытании, что показывает, что он работает лучше других подходов к прогнозированию действий дорожных агентов в сложных ситуациях. В заключение, MotionLM безусловно является инновационным подходом к прогнозированию множественных движений агентов для автономных транспортных средств и представляет реальное преимущество в этой области.