Исследователи из компании Waabi и Университета Торонто представляют LabelFormer эффективную модель искусственного интеллекта на основе трансформера для уточнения траекторий объектов с целью автоматической маркировки.

Waabi и Университет Торонто представляют LabelFormer эффективная модель ИИ на основе трансформера для точного маркирования объектов

Современные системы автономного движения часто используют крупномасштабные вручную размеченные наборы данных для обучения детекторов объектов, которые распознают участников дорожного движения на изображении. Автоматические методы пометки, которые автоматически присваивают ярлыки данным датчиков, все больше привлекают внимание. Если вычислительные затраты автоматической пометки меньше, чем затраты ручной разметки, и созданные ярлыки сравнимого качества, то автоматическая пометка может предоставить гораздо большие наборы данных по крошечной части затрат ручной разметки. Более точные модели восприятия затем могут быть обучены с использованием этих автоматически размеченных наборов данных. Поскольку LiDAR является основным используемым датчиком на многих платформах автономного движения, он используется в качестве входных данных после этого. Кроме того, они сосредотачиваются на ситуации с учителем, в которых автоматический пометчик может быть обучен, используя набор настоящих ярлыков.

Эта настройка проблемы также известна как offboard-восприятие, которое не имеет ограничений реального времени и, в отличие от восприятия на борту, имеет доступ к будущим наблюдениям. Как видно на рис. 1, наиболее популярная модель решает проблему offboard-восприятия в два этапа, черпая вдохновение из процедуры человеческой разметки. С использованием фреймворка “обнаружить-затем-отследить” сначала получают объекты и их грубые траектории ограничивающих прямоугольников, а затем каждая траектория объекта отдельно уточняется. Ключевой целью первого этапа является отслеживание как можно большего количества объектов на сцене, чтобы достичь высокой полноты выборки. С другой стороны, второй этап сосредотачивается на уточнении траекторий для создания более качественных ограничивающих прямоугольников. Второй шаг называется “уточнение траектории” и является предметом данного исследования.

Рисунок 1: Автоматическая парадигма разметки на двух этапах. На первом шаге используется парадигма “обнаружить, затем отследить”, чтобы собрать траектории грубых объектов. Каждая траектория отдельно уточняется на втором шаге.

Управление заслонениями объектов, разреженностью наблюдений при увеличении дальности и различными размерами и движениями объектов делает эту работу сложной. Для решения этих проблем необходимо создать модель, которая могла бы эффективно и эффективно использовать временной контекст полной траектории объекта. Однако существующие техники недостаточны, так как они предназначены для обработки динамических траекторий объектов в субоптимальном режиме скользящего окна, применяя нейронную сеть отдельно на каждом временном шаге в ограниченном временном контексте для извлечения характеристик. Это может быть более эффективно, так как при нескольких перекрывающихся окнах признаки извлекаются повторно из одного и того же кадра. В результате структуры используют относительно небольшой временной контекст, чтобы оставаться в рамках выделенного бюджета вычислений.

Кроме того, ранние усилия использовали сложные конвейеры с несколькими отдельными сетями (например, для адаптации к различной обработке статических и динамических объектов), что трудно создавать, отлаживать и поддерживать. Используя другую стратегию, исследователи из Waabi и Университета Торонто предлагают в данной статье LabelFormer простой, эффективный и экономичный метод уточнения траектории. Он создает более точные ограничивающие прямоугольники, используя полностью общую временную среду. Кроме того, их решение превосходит текущие подходы на основе окна в плане вычислительной эффективности, обеспечивая автоматическую разметку преимущество по сравнению с ручной разметкой. Для этого они создают архитектуру на основе трансформатора с использованием блоков само-внимания для использования зависимостей со временем после отдельного кодирования начальных параметров ограничивающего прямоугольника и наблюдений LiDAR на каждом временном шаге.

Их подход устраняет излишние вычисления путем уточнения полной траектории за один раз, поэтому он используется только один раз для каждого отслеживаемого элемента во время вывода. Их конструкция также гораздо проще, чем предыдущие методы, и легко справляется со статическими и динамическими объектами. Их комплексная экспериментальная оценка автомагистралей и городских данных показывает, что их метод работает быстрее, чем методы на основе окна, и обеспечивает более высокую производительность. Они также показывают, как LabelFormer может автоматически разметить больший набор данных для обучения дальнейших детекторов элементов. Это приводит к более точным обнаружениям, чем при использовании только человеческих данных или других авто-пометочных инструментов.