Введение в персональную реидентификацию

Introduction to personal re-identification

Фото Тобиаса Туллиуса на Unsplash

Распознавание личности – это процесс, который идентифицирует лиц, появляющихся в разных не перекрывающихся камерах. Этот процесс не основан на распознавании лиц, а, вместо этого, учитывает детали одежды, особенности фигуры и другие атрибуты, связанные с внешностью.

В этой статье я расскажу о концепциях, терминологии, проблемах, наборах данных и методах, связанных с разработкой системы идентификации личности.

Целью ReID является определение того, был ли данный человек сфотографирован ранее на одной из камер, входящих в систему. Это изображение называется запросом. Иногда запросом могут быть видеопоследовательности.

Что делает идентификацию личности сложной задачей?

  • Окклюзии
  • Разные ракурсы
  • Низкое разрешение изображений
  • Загроможденные фоны
  • Изменения освещения
  • Неточное обнаружение пешеходов
  • Мало обучающих примеров для каждого класса

Идентификация личности – это задача, состоящая из множества классов (каждый человек является отдельным классом), но во время обучения доступно только несколько примеров для каждого класса. Поэтому извлечение значимых представлений из небольшого числа примеров для каждого класса может быть довольно сложным. Извлечение значимых представлений из небольшого числа примеров для каждого класса называется обучением с небольшим количеством образцов.

Некоторые способы решения этой проблемы включают методы, такие как увеличение числа примеров для каждого класса с помощью аугментации данных, обучение представлений без учителя (CLIP) и т. д. Подробнее о работе с обучением с небольшим количеством образцов можно узнать здесь.

  • Обобщение между разными областями

Было замечено, что модели ReID, обученные на одном наборе данных, плохо работают на других наборах данных. Для решения этой проблемы были предложены некоторые техники. Например, методы на основе обучения представлений без учителя, такие как CLIP, могут быть использованы для изучения лучших обобщающих представлений, которые затем могут быть использованы для донастройки модели на разных наборах данных.

Важные термины в области ReID

Идентификатор личности: Уникальный идентификатор, присвоенный человеку в наборе данных. Этот “идентификатор” в большинстве приложений будет сброшен каждый день. Можно представить идентификатор личности как метку класса, используемую в традиционной задаче классификации.

Идентификатор камеры: Уникальный идентификатор, присвоенный определенной камере в системе идентификации личности

Типы разделения

Обучающая/тестовая выборка: Разделение на обучающую и тестовую выборку имеет ту же цель, что и в любой другой задаче машинного обучения.

Когда модель обучена, галерея и запрос помогают оценить ее работу.

Галерея/запросное разделение:

Изображения в галерее используются моделью для изучения представлений отдельных лиц. Галерея может содержать несколько изображений для одного идентификатора личности. Обратите внимание, что галерея отличается от обучающего набора данных.

Изображения в запросной выборке представляют собой изображения для тестирования работы модели на представлениях идентификатора личности, изученных из галерейной выборки.

Обзор системы идентификации личности

Различные этапы идентификации личности [источник]

Одно из основных применений этого процесса – это наблюдение. В общественных местах, таких как университеты, школы, торговые центры и парковки, это добавляет слой безопасности для выявления нарушителей незаконной деятельности.

Подготовка набора данных

Для того, чтобы наборы данных были более сложными и отражали реальное распределение, обычной практикой является запись видео в разные времена суток, чтобы учесть изменения освещения. Однако это не относится к видеозаписям, сделанным внутри помещений.

Например, камеры, установленные за пределами терминала аэропорта, могут собирать данные с различной освещенностью из-за изменений погоды и времени суток. В то время как камеры внутри аэропорта, где освещение осуществляется искусственным светом, освещение остается в основном постоянным.

Камеры обычно устанавливаются под разными углами, что добавляет сложность разных точек зрения в наборе данных. Иногда различные настройки камеры также приводят к вариациям в данных, которые лучше соответствуют данным реального мира.

Некоторые наборы данных, такие как CUHK-CYSU, извлекают изображения из киносцен, помимо изображений, снятых камерой, так как они в основном содержат одних и тех же актеров в разных сценах.

Ниже представлен обзор известных наборов данных ReID

CUHK03

CUHK03 состоит из 14 097 изображений 1467 различных личностей, где для сбора изображений использовались 6 камер на кампусе, и каждая личность была снята с помощью 2 камер на кампусе. Этот набор данных предоставляет два типа аннотаций: ручной разметки ограничивающих рамок и ограничивающих рамок, полученных с помощью детектора пешеходов. Набор данных также предоставляет 20 случайных разделений на тренировочный и тестовый наборы, в которых 100 личностей выбираются для тестирования и остальные для обучения.

Market1501

Market-1501 – это крупный общедоступный набор данных для персональной идентификации. Он содержит 1501 идентификацию, которые были сняты шестью разными камерами, и 32 668 ограничивающих рамок изображений пешеходов, полученных с помощью детектора пешеходов Deformable Part Models. Набор данных разделен на две части: 750 идентификаций используются для обучения и оставшиеся 751 идентификация используются для тестирования.

MSMT 17

MSMT17 – это набор данных для персональной идентификации персон в нескольких сценах и на разные временные отрезки. Набор данных состоит из 180 часов видео, снятых 12 наружными камерами, 3 внутренними камерами и в течение 12 временных слотов. Видео охватывают длительный период и имеют сложные вариации освещения, а также содержат большое количество аннотированных идентификаций – 4101 идентификацию и 126441 ограничивающую рамку.

Генерация ограничивающих рамок

Этот этап направлен на извлечение ограничивающих рамок, содержащих обрезанные изображения людей из исходных видео данных. Вручную обрезать все изображения людей в крупномасштабных наборах данных сложно. Раньше ограничивающие рамки обычно получали с помощью моделей обнаружения объектов, таких как Deformable Part Model, но в настоящее время могут быть использованы более совершенные алгоритмы обнаружения объектов, такие как YOLO. Для более точной локализации также можно использовать паноптическую сегментацию.

Многие наборы данных также ручным образом аннотируют изображения, а некоторые предоставляют смесь ручной аннотации и тех, которые предсказаны детектором пешеходов, чтобы создать более сложный и реалистичный набор данных, поскольку пешеходы должны быть обнаружены в реальном времени с помощью детектора пешеходов в системе ReID.

Обучение модели

Этот этап направлен на обучение дискриминативной и устойчивой модели ReID с аннотированными изображениями/видео личностей. Этот шаг является основой для разработки системы ReID и является наиболее широко изучаемой парадигмой в литературе. Были разработаны обширные модели для решения различных проблем, сосредоточиваясь на извлечении признаков, обучении метрики расстояния или их комбинации.

Обучение ReID с учителем

Рассматривая ReID как проблему поиска пешеходов, большинство существующих работ используют архитектуры сети, используемые для классификации изображений, в качестве основы. Сеть ResNet50 часто используется в качестве основы для извлечения векторов признаков изображений.

Существуют три категории существующих подходов к обучению ReID с учителем:

  1. Изучение глобальных признаков на всем изображении с обучением модели через функцию потерь классификации.
  2. Использование жесткой функции потерь триплета для глобальных признаков, чтобы обеспечить более близкие представления признаков одного человека. (см. рисунок ниже)
  3. Изучение признаков, основанных на частях. Это включает разделение изображения на несколько горизонтальных полосок и изучение более тонких признаков от всех частей тела. Эти методы пытаются использовать функцию потерь классификации на частях.
Triplet Loss [Источник]

Обучение представлений без учителя

Методы контрастного обучения и предварительного обучения без учителя могут обеспечивать качество представлений, сравнимое с качеством, полученным от обучения с учителем. Были предложены методы хранения представлений в памяти. MoCo и MoCo v2 – это методы самообучения, применяемые некоторыми научными статьями для выполнения предварительного обучения без учителя.

Функции потерь

Значительное количество исследований в этой области также фокусируется на введении новых функций потерь для разработки лучших моделей ReID. Основная цель этой задачи – уменьшение внутриклассовых вариаций и увеличение межклассовых вариаций.

Одна из наиболее широко используемых функций потерь – это функция потерь тройки. Ее основная цель – создать пространство представлений, в котором сходство между связанными образцами ближе друг к другу, чем между различными примерами. Путем накладывания порядка расстояний между якорными, положительными и отрицательными примерами функция потерь тройки побуждает модель учить вложения, которые помещают образцы с идентичными метками ближе друг к другу, сохраняя при этом значительное расстояние от образцов с разными метками. В результате функция потерь тройки эффективно встраивает модели, чтобы облегчить близость образцов, разделяющих идентичные метки, сохраняя значительное расстояние между образцами с разными метками. Другие функции потерь, основанные на функции потерь тройки и показывающие лучшие результаты, – это функция потерь центра и функция потерь круга.

Различные виды функций потерь. [источник]

Функция потерь идентичности – это еще один вид функции потерь, которая используется для ReID. Она рассматривает ReID как задачу классификации изображений. Эта потеря вычисляется с помощью кросс-энтропии.

Еще один вид используемой функции потерь – это функция потерь верификации, которая оптимизирует попарные отношения с помощью контрастной потери или бинарной потери верификации.

Метрики оценки

Для оценки системы ReID наиболее широко используются две метрики – накопительные характеристики соответствия (CMC) и средняя средняя точность (mAP).

CMC представляет собой вероятность того, что правильное соответствие появится в топ-k ранжированных результатов поиска.

Другая метрика, то есть средняя средняя точность (mAP), измеряет среднюю производительность поиска с несколькими эталонными данными. Для ReID это может помочь решить проблему, когда две модели одинаково хорошо ищут первое эталонное соответствие, но имеют разную производительность для других сложных соответствий.

Переранжировка

При заданном запросе система извлекает набор кандидатов из галерей, которые похожи на него на основе некоторой метрики сходства, такой как евклидово расстояние. После получения этого начального ранжированного списка хорошей практикой является добавление шага переранжировки. Это необходимо, так как иногда начальный список может содержать ложноположительные изображения. Поэтому были разработаны алгоритмы переранжировки с ожиданием, что истинно положительные изображения получат более высокие ранги в переранжированном списке [6].

Переранжировочные методы успешно изучены для повышения точности поиска объектов. Несколько работ используют k-ближайших соседей для изучения сходств между соседями, чтобы решить проблему переранжировки. Но иногда в k-ближайших соседях запросного изображения могут также присутствовать ложноположительные соответствия, что может негативно сказаться на конечном результате.

Поэтому многие методы также используют k-взаимно-ближайших соседей. Две картинки считаются k-взаимно-ближайшими соседями, когда они оба присутствуют в k-ближайших соседях друг друга [6]. Таким образом, эта дополнительная оговорка лучше гарантирует, что истинные соответствия будут включены в переранжировку.

Основные выводы

Существует множество проблем с ReID, которые необходимо решить. Перенос между областями является важной проблемой, которую необходимо решить. Размер наборов данных, особенно примеров для каждого человека, также влияет на производительность этой системы. Похожая цветовая одежда на разных людей также может вызывать снижение производительности. Это некоторые проблемы, которые требуют дальнейших исследований для создания лучших систем ReID.

ReID можно использовать для усиления безопасности в общественных местах, финансовых учреждениях, школах и многих других значимых местах. Он является предметом исследований уже много лет, и с появлением самообучения и методов контрастного обучения, которые помогают в изучении лучших представлений, он имеет потенциал быть включенным в реальные системы безопасности в ближайшее время.

Ссылки

[1] Fu, Dengpan, и др. «Unsupervised pre-training for person re-identification.» Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2021.

[2] Wieczorek, Mikołaj, Barbara Rychalska и Jacek Dąbrowski. «On the unreasonable effectiveness of centroids in image retrieval.» Neural Information Processing: 28th International Conference, ICONIP 2021, Sanur, Bali, Indonesia, December 8–12, 2021, Proceedings, Part IV 28. Springer International Publishing, 2021.

[3] Ye, Mang и др. “Глубокое обучение для персональной идентификации: обзор и перспективы.” IEEE transactions on pattern analysis and machine intelligence 44.6 (2021): 2872–2893.

[4] Xiao, Tong и др. “Совместное обнаружение и обучение функций для поиска личности.” Материалы конференции IEEE по компьютерному зрению и распознаванию образов. 2017.

[5] Sun, Yifan и др. “За моделями частей: поиск личности с уточненным суммированием частей (и сильной базовой сверткой).” Материалы Европейской конференции по компьютерному зрению (ECCV). 2018.

[6] Zhong, Zhun и др. “Повторная ранжировка персональной идентификации с использованием кодирования k-взаимной связи.” Материалы конференции IEEE по компьютерному зрению и распознаванию образов. 2017.