Исследователи Amazon представили метод HandsOff, который устраняет необходимость вручную аннотировать синтетические изображения.

Amazon researchers have presented HandsOff, a method that eliminates the need to manually annotate synthetic images.

Одной из основных проблем, с которыми сталкиваются модели машинного обучения (МО) для задач компьютерного зрения, является наличие размеченных обучающих данных. Однако сбор и разметка этих данных могут требовать много времени и усилий. Синтетические данные стали возможным решением этой проблемы, но даже генерация синтетических данных часто требует трудоемкой ручной разметки аналитиками.

Существующие подходы к решению этой проблемы обычно включают использование генеративно-состязательных сетей (GAN), чтобы создавать синтетические изображения. GAN состоит из дискриминатора и генератора, где генератор учится создавать изображения, которые могут обмануть дискриминатор, заставив его думать, что они настоящие. Хотя GAN показали свою эффективность в генерации синтетических данных, они все равно требуют значительного количества размеченных данных для обучения, что ограничивает их эффективность в сценариях с ограниченными размеченными данными.

Исследователи из Amazon представили новое инновационное решение под названием “HandsOff”, представленное на конференции по компьютерному зрению и распознаванию образов (CVPR). HandsOff устраняет необходимость в ручной разметке синтетических изображений, используя небольшой набор размеченных изображений и GAN.

HandsOff использует новый подход, известный как инверсия GAN. Вместо изменения параметров самого GAN исследователи обучают отдельную модель инверсии GAN, чтобы отображать подлинные изображения на точки в латентном пространстве GAN. Это позволяет им создавать небольшой набор точек и меток на основе размеченных изображений, которые можно использовать для обучения третьей модели, способной размечать точки в латентном пространстве GAN.

Ключевым новшеством в HandsOff является настройка модели инверсии GAN с использованием потери LPIPS (изученная схожесть патчей визуального восприятия). LPIPS измеряет сходство между изображениями, сравнивая выходы модели компьютерного зрения, такой как детектор объектов, для каждого слоя модели. Оптимизируя модель инверсии GAN для минимизации разницы LPIPS между истинным латентным вектором и оцененным латентным вектором для входного изображения, исследователи обеспечивают точность меток даже для идей, которые не были идеально восстановлены.

HandsOff демонстрирует передовые результаты в важных задачах компьютерного зрения, таких как семантическая сегментация, обнаружение ключевых точек и оценка глубины. Замечательно, что это достигается с использованием менее 50 предварительно существующих размеченных изображений, что подчеркивает способность фреймворка генерировать высококачественные синтетические данные с минимальной ручной разметкой.

В заключение, фреймворк HandsOff представляет собой захватывающий прорыв в области компьютерного зрения и машинного обучения. Избавление от необходимости в обширной ручной разметке синтетических данных значительно сокращает затраты ресурсов и времени на обучение моделей МО. Использование инверсии GAN в сочетании с оптимизацией LPIPS демонстрирует эффективность данного подхода в обеспечении точности меток для сгенерированных данных. Хотя в статье не приводятся конкретные количественные показатели, утверждение об достижении передовых результатов обнадеживает и требует дальнейшего исследования.

В целом, HandsOff обещает продвинуть исследования и применение компьютерного зрения, демократизируя доступ к высококачественным размеченным данным и делая его более доступным для различных областей и отраслей.