Эта исследовательская статья по искусственному интеллекту предлагает новую стратегию предварительного обучения, называемую Privacy-Preserving MAE-Align, для эффективного объединения синтетических данных и реальных данных, обработанных без участия человека

Новая стратегия предварительного обучения Privacy-Preserving MAE-Align эффективное объединение синтетических и реальных данных в исследовании искусственного интеллекта

Распознавание действий, задача идентификации и классификации действий человека на видео последовательностях, является важной областью в компьютерном зрении. Однако ее основополагающей проблемой является использование крупных наборов данных, содержащих изображения людей, что приводит к значительным вызовам, связанным с конфиденциальностью, этикой и защитой данных. Эти проблемы возникают из-за возможной идентификации лиц на основе личных атрибутов и сбора данных без явного согласия. Кроме того, предвзятость, связанная с полом, расой или конкретными действиями, выполняемыми определенными группами, может повлиять на точность и справедливость моделей, обученных на таких наборах данных.

В распознавании действий значительное значение имеют совершенствование методологий предварительного обучения на массовых видео наборах данных. Однако при таких совершенствованиях возникают вызовы, связанные с этическими соображениями, проблемами конфиденциальности и предвзятости, присущей наборам данных с изображениями людей. Существующие подходы по решению этих проблем включают замазывание лиц, уменьшение размеров видео или использование синтетических данных для обучения. Несмотря на эти усилия, требуется более глубокий анализ того, насколько хорошо модели предварительного обучения, сохраняющие конфиденциальность, передают свои выученные представления задачам последующего распознавания действий. Современные модели иногда не могут точно предсказывать действия из-за предвзятости или отсутствия разнообразных представлений в обучающих данных. Эти вызовы требуют новых подходов, которые решают проблемы конфиденциальности и улучшают передаточность выученных представлений для различных задач распознавания действий.

Для преодоления трудностей, связанных с конфиденциальностью и предвзятостью в наборах данных, ориентированных на людей и используемых для распознавания действий, недавно был представлен новый метод на конференции NeurIPS 2023, известной конференции, который предлагает новаторский подход. В этой недавно опубликованной работе разработана методология предварительного обучения моделей распознавания действий с использованием комбинации синтетических видео с виртуальными людьми и реальных видео без людей. Путем использования этой новой стратегии предварительного обучения, названной Privacy-Preserving MAE-Align (PPMA), модель изучает временные динамики с синтетических данных и контекстные характеристики с реальных видео без людей. Этот инновационный метод помогает решить проблемы конфиденциальности и этики, связанные с данными о людях. Он существенно повышает передаточность выученных представлений для различных задач распознавания действий, уменьшая разрыв в производительности между моделями, обученными с использованием данных о людях и без них.

В конкретном виде предлагаемый метод PPMA включает следующие основные шаги:

  1. Защищенные данные: Процесс начинается с использования набора данных Kinetics, из которого удаляются люди с помощью HAT-фреймворка, что приводит к получению набора данных без людей.
  2. Добавление синтетических данных: Включены синтетические видео от SynAPT, которые предлагают виртуальные действия людей, облегчающие выделение временных характеристик.
  3. Оценка на различные задачи: Шесть разных задач оценивают передаточность модели для различных вызовов распознавания действий.
  4. Предварительное обучение MAE-Align: Эта стратегия, состоящая из двух этапов:
  • Этап 1: Обучение MAE для предсказания значений пикселей, изучение контекстных характеристик реального мира.
  • Этап 2: Наблюдение с учителем с использованием набора данных без людей и синтетических данных для обучения на основе этикетки с действием.
  1. Privacy-Preserving MAE-Align (PPMA): Комбинируя этап 1 (MAE, обученная на наборе данных без людей) с этапом 2 (наблюдение с учителем, используя набор данных без людей и синтетические данные), PPMA обеспечивает надежное обучение представлений при соблюдении конфиденциальности.

Исследовательская группа провела эксперименты для оценки предложенного подхода. Используя модели ViT-B, обученные с нуля без предварительного обучения ImageNet, они применили двухэтапный процесс: обучение MAE в течение 200 эпох, за которым следовало наблюдение с учителем в течение 50 эпох. PPMA на шести разных задачах превзошел другие методы, сохраняющие конфиденциальность, на 2,5% при дообучении и на 5% при линейном зондировании. Хотя на задачах с высокой предвзятостью по объектам сцены PPMA было несколько менее эффективно, оно значительно уменьшило разрыв в производительности по сравнению с моделями, обученными на реальных данных о людях, продемонстрировав потенциал для достижения надежных представлений при соблюдении конфиденциальности. Анализ абляции подтвердил эффективность предварительного обучения MAE в изучении передаточных характеристик, особенно заметную при дообучении на последующих задачах. Кроме того, исследование комбинации контекстных и временных характеристик, методы, такие как усреднение весов моделей и динамическое обучение пропорций смешивания, показали потенциал для улучшения представлений, открывая пути для дальнейших исследований.

В данной статье представлен ППМА, новаторский подход к моделям распознавания действий, обеспечивающий конфиденциальность, этику и предвзятость в наборах данных, связанных с людьми. Используя синтетические и реальные данные без людей, ППМА эффективно передает выученные представления различным задачам распознавания действий, уменьшая разрыв в производительности между моделями, обученными с использованием данных о людях и без них. Эксперименты подчеркивают эффективность ППМА в развитии распознавания действий с обеспечением конфиденциальности и смягчением этических проблем и предвзятости, связанных с обычными наборами данных.