Это исследование AI представляет новый подход к распознаванию позы объекта как предсказание следующего токена.

AI исследование новый подход к определению позы объекта с предсказанием следующего токена

Как эффективно подходить к распознаванию объектов? Команда исследователей из Meta AI и Университета Мэриленда решила проблему распознавания объектов, разработав новый метод, который использует декодер языка для предсказания текстовых токенов из вложений изображения и формирования меток. Они также предложили стратегию для создания более эффективного декодера без потери производительности.

Распознавание объектов, предшествующее эпохе глубокого обучения, помогло в аннотировании изображений. Методы включали разделение областей и предсказание слов, выравнивая области с помощью лексикона. Ко-вложение изображений и текста в общем пространстве решало проблему соответствия изображений и текста, акцентируя внимание на конкретных фразах. Аннотация изображений развивалась от моделей тем к архитектурам на основе трансформаторов. Языковые модели, такие как GPT и LLaMA, внесли вклад в визуальное восприятие и были применены в обнаружении, распознавании с небольшим числом примеров, объяснениях и рассуждениях. Архитектурные концепции от языковых моделей, такие как префиксная идея, оказали влияние и исследовались в области визуализации и языка.

Исследование решает проблему распознавания объектов в компьютерном зрении путем представления структуры с кодировщиком изображений, создающим вложения, и декодером языка, предсказывающим метки объектов. В отличие от традиционных методов с фиксированными вложениями, предлагаемый подход рассматривает распознавание как предсказание следующего токена, позволяя авторегрессионное декодирование меток из вложений изображения. Это устраняет необходимость в заранее заданных метках и способствует гибкому и эффективному распознаванию. Ключевые инновации, включая маску некаузального внимания и компактный декодер, повышают эффективность без потери производительности, предлагая новое решение для распознавания объектов в компьютерном зрении.

В исследовании подход к распознаванию объектов на основе предсказания следующего токена использовался с помощью декодера языка, который предсказывает токены текста из вложений изображения для создания меток. Применяется авторегрессия, включая некаузальную маску внимания, чтобы декодер моделировал токены независимо и рассматривал токены изображения в качестве префикса. Используется однократное выборочное извлечение параллельных токенов из нескольких меток, их ранжировка по вероятностям при выводе. Для повышения эффективности предлагается стратегия компактного построения декодера, включающая удаление промежуточных блоков из предобученной языковой модели, сохраняя при этом производительность.

В исследовании проводится подробное сравнение с использованием моделей CLIP, Open Flamingo, LLaVA, BLIP-2, InstructBLIP и CaSED, оценивая топ-k предсказаний и кривых точность-полнота. Предложенный подход последовательно превосходит конкурентов в топ-10 предсказаниях, что указывает на превосходство в генерации меток. Кривые точность-полнота демонстрируют сильную линейную корреляцию, что свидетельствует о лучшем качестве предсказания на всех тестовых наборах данных, с увеличением полноты при увеличении k. Исследования проблематичного усечения декодера показывают минимальное снижение производительности на наборе CC3M, но не изменение на COCO и OpenImages. Это подчеркивает важность начальных блоков модели LLaMA 7B для распознавания объектов, приводя к удалению блоков после 11-го для более компактного декодера.

В заключение, предложенный авторегрессионный подход с использованием предсказания следующего токена для распознавания объектов превосходит другие методы в создании топ-10 предсказаний на наборах данных, указывая на превосходство в генерации меток. Сильная линейная корреляция, наблюдаемая на кривых точность-полнота, свидетельствует о лучшем качестве предсказания на всех тестовых наборах данных. Исследования усечения декодера показывают незначительное снижение производительности на наборе CC3M, но не изменение на COCO и OpenImages. Кроме того, удаление промежуточных блоков трансформатора в модели LLaMA приводит к более компактному декодеру с сравнимой производительностью, что подчеркивает важность подмножества знаний в моделях LLM для распознавания объектов.

Дальнейшие исследования могут быть сосредоточены на решении проблем конкуренции в однократном выборочном сэмплировании путем исследования стратегий смягчения. Еще одним потенциальным направлением исследования является изучение прямого сопоставления генеративных моделей, особенно LLM, с распознаванием объектов без предварительно заданных подмножеств или опорных точек. Также было бы полезно изучить влияние значительного увеличения объема обучающих данных с целью уменьшения зависимости от интерпретации или распознавания невидимых данных и концепций, что соответствует открытой парадигме постепенного изучения новых меток с течением времени.