Исследователи Кембриджского университета представляют набор данных из 50 000 синтетических и фотореалистичных изображений стопы вместе с новой библиотекой ИИ для стопы.

50 000 синтетических и фотореалистичных изображений стопы новые данные и ИИ-библиотека от исследователей Кембриджского университета

Здоровье, мода и фитнес-индустрии проявляют большой интерес к сложной задаче компьютерного зрения – трехмерной реконструкции частей человеческого тела по фотографиям. В данном исследовании рассматривается задача реконструкции человеческой стопы. Точные модели стоп полезны при покупке обуви, ортопедических изделий и контроле личного здоровья. Идея восстановления трехмерной модели стопы по фотографиям стала особенно привлекательной, поскольку цифровой рынок для этих бизнесов растет. Существуют четыре типа существующих решений для реконструкции стопы: дорогостоящие сканирующие устройства, реконструкция шумных облачных точек при помощи карт глубины или датчиков на основе телефона, таких как TrueDepth-камера, и структура движения (SfM), за которой следует многократная просмотрная стереоскопия (MVS) и генеративные модели стопы, которые подгоняются к силуэтам на фотографиях. 

Они приходят к выводу, что ни один из этих вариантов не является приемлемым для точного сканирования дома: большинство людей не могут позволить себе дорогостоящее сканирующее оборудование, на базе телефона доступны не всем и не просты в использовании, шумные точечные облака представляют сложности для использования в дальнейшей обработке, такой как рендеринг и измерение. Однако генеративные модели стопы были низкими по качеству и ограниченными, а использование только силуэтов с фотографий ограничивает количество геометрической информации, которую можно получить из изображений, что особенно проблематично в многократном режиме просмотра. SfM зависит от многовидовых входных данных для сопоставления плотных особенностей между изображениями, а MVS также может создавать шумные облака точек.

Недостаточная доступность сопряженных изображений и истинных 3D-данных для тренировки ограничивает производительность этих подходов. С этой целью исследователи из Кембриджского университета представляют FOUND, или Foot Optimisation с использованием неопределенной нормалей для деформации поверхности. Этот алгоритм использует неопределенности в дополнение к нормализованным поверхностям на пиксель для улучшения оптимизационных подходов к многократной реконструкции. Хотя их техника требует минимального количества калиброванных входных RGB-фотографий. Несмотря на то, что они полностью полагаются на силуэты, не содержащие геометрической информации, они используют нормали поверхности и ключевые точки в качестве дополнительных улик. Они также предоставляют значительную коллекцию искусственно фотореалистичных фотографий, соответствующих меткам истинности, для этого типа сигналов, чтобы преодолеть нехватку данных.

Их основные вклады следующие:

• Они выпускают SynFoot – крупномасштабный синтетический набор данных из 50 000 фотореалистичных фотографий стопы с точными силуэтами, нормалями поверхности и метками ключевых точек для использования в исследованиях по трехмерной реконструкции стопы. Несмотря на то, что получение такой информации на реальных фотографиях требует дорогостоящего сканирующего оборудования, их набор данных отличается отличной масштабируемостью. Они демонстрируют, что их синтетический набор данных охватывает достаточное количество вариации внутри фотографий стопы для обобщения на реальных изображениях, несмотря на то, что у них есть только 8 сканов реальных стоп. Кроме того, они предоставляют оценочный набор данных, состоящий из 474 фотографий 14 реальных стоп. Каждый сопоставлен с высокоразрешающими 3D-сканами и истинными нормалями поверхности на пиксель. Наконец, они раскрывают свою собственную библиотеку на языке Python для Blender, позволяющую создавать эффективные синтетические наборы данных.

• Они показывают, что сеть оценки неопределенности нормали поверхности может обобщаться на фактические фотографии стопы не по тренировочным данным, а только на их синтетических данных из 8 сканов стопы. Для уменьшения разницы в домене между искусственными и реальными фотографиями стопы они используют агрессивное появление и перспективное увеличение. Сеть вычисляет связанную неопределенность и нормали поверхности в каждом пикселе. Неопределенность полезна в двух аспектах: во-первых, путем установки порогового значения неопределенности можно получить точные силуэты, не обучая отдельную сеть; во-вторых, используя оцененную неопределенность для взвешивания потери нормали поверхности в их схеме оптимизации, они могут повысить устойчивость к возможности неточности предсказаний в некоторых видах.

• Они предоставляют стратегию оптимизации, которая использует дифференцируемый рендеринг для подгонки генеративной модели стопы к серии калиброванных фотографий с ожидаемыми нормалями поверхности и ключевыми точками. Их конвейер превосходит современную фотограмметрию по восстановлению поверхности, обладает способностью работать с неопределенностью и может восстановить водонепроницаемую сетку из ограниченного количества изображений. Он также может использоваться для данных, полученных с мобильного телефона потребителя.