Может ли искусственный интеллект действительно понять наши эмоции? В этой статье исследуется продвинутое распознавание эмоций лиц с помощью моделей Vision Transformer AI.

Искусственный интеллект способен ли он действительно понять наши эмоции? Исследование продвинутого распознавания эмоций лиц с использованием моделей Vision Transformer AI.

FER (распознавание эмоций на лице) играет ключевую роль во взаимодействии человека с компьютером, анализе настроений, эмоциональных вычислениях и виртуальной реальности. Оно помогает машинам понимать и реагировать на человеческие эмоции. Методологии преодолели ручное извлечение и перешли к использованию сверточных нейронных сетей и трансформерных моделей. Применения включают улучшение взаимодействия компьютер-человек и повышение эмоциональной реакции у роботов, что делает FER непременным компонентом технологии «человек-машина».

Современные методологии в области FER претерпели значительные изменения. Ранние подходы сильно полагались на ручное создание признаков и алгоритмы машинного обучения, такие как метод опорных векторов и случайные леса. Однако появление глубокого обучения, в частности сверточных нейронных сетей (CNN), революционизировало FER, удачно захватывая сложные пространственные паттерны в лицевых выражениях. Несмотря на их успех, остаются вызовы, такие как изменения контраста, несбалансированность классов, внутриклассовая вариация и заслонение, включая изменения качества изображения, условия освещения и врожденную сложность лицевых выражений человека. Кроме того, несбалансированные наборы данных, такие как хранилище FER2013, затрудняют производительность модели. Устранение этих вызовов стало точкой роста для исследователей, стремящихся повысить точность и устойчивость FER.

В ответ на эти вызовы предлагается новый метод в статье “Сравнительный анализ моделей Vision Transformer для распознавания эмоций на лице с использованием сбалансированных данных, полученных с аугментацией”, предлагающий решение ограничений существующих наборов данных, таких как FER2013. Работа направлена на оценку производительности различных моделей Vision Transformer в распознавании эмоций в лицевых выражениях. Она фокусируется на оценке этих моделей с использованием сбалансированных и увеличенных наборов данных для определения их эффективности в точном распознавании эмоций на лице.

Предложенный подход заключается в создании нового сбалансированного набора данных с применением передовых техник аугментации данных, таких как горизонтальное отображение, обрезка и заполнение, особенно с акцентом на увеличение немногочисленных классов и тщательную очистку изображений низкого качества из репозитория FER2013. Этот новый сбалансированный набор данных, называемый FER2013_balanced, имеет цель устранить проблему несбалансированности данных, обеспечивая равномерное распределение по различным эмоциональным классам. Путем аугментации данных и удаления низкокачественных изображений исследователи намерены улучшить качество набора данных, тем самым повысив тренировку моделей FER. Статья подробно описывает важность качества набора данных для смягчения смещенных прогнозов и укрепления надежности систем FER.

Сначала метод идентифицировал и исключил из набора данных FER2013 изображения низкого качества. Такие изображения низкого качества включают случаи с низким контрастом или заслонением, поскольку эти факторы существенно влияют на производительность моделей, обученных на таких наборах данных. Затем для устранения проблемы несбалансированности классов проводилась аугментация с целью увеличения представления недостаточно представленных эмоций, обеспечивая более равномерное распределение по различным эмоциональным классам.

После этого метод сбалансировал набор данных, удалив множество изображений из перепредставленных классов, таких как счастье, нейтральность, грусть и другие. Этот шаг направлен на достижение равного количества изображений для каждой категории эмоций в наборе данных FER2013_balanced. Равномерное распределение снижает риск смещения к мажоритарным классам, обеспечивая более надежную основу для исследования FER. Упор на решение проблем набора данных имел решающее значение для установления надежного стандарта для исследований в области распознавания эмоций на лице.

Метод продемонстрировал значительные улучшения в производительности модели Tokens-to-Token ViT после создания сбалансированного набора данных. Эта модель показала повышенную точность при оценке на наборе данных FER2013_balanced по сравнению с исходным набором данных FER2013. Анализ охватывал различные эмоциональные категории, иллюстрируя значительное улучшение точности для выражений гнева, отвращения, страха и нейтральности. Модель Tokens-to-Token ViT достигла общей точности 74,20% на наборе данных FER2013_balanced против 61,28% на наборе данных FER2013, подчеркивая эффективность предложенной методологии в улучшении качества набора данных и, следовательно, повышении производительности модели в задачах распознавания эмоций на лице.

В заключение, авторы предложили уникальный метод для улучшения FER путем повышения качества набора данных. Их подход включал тщательную очистку изображений низкого качества и применение передовых техник аугментации данных для создания сбалансированного набора данных FER2013_balanced. Этот сбалансированный набор данных значительно повысил точность модели Tokens-to-Token ViT, демонстрируя важную роль качества набора данных в улучшении производительности модели FER. Исследование подчеркивает решающее значение тщательной кураторской работы и аугментации набора данных для повышения точности FER и открывает промising аспекты для исследований, связанных с взаимодействием человека с компьютером и эмоциональным вычислением.

Статья Может ли искусственный интеллект действительно понять наши эмоции? В данной научной работе исследуется продвинутое распознавание эмоций на лицах с помощью моделей Vision Transformer впервые появилась на MarkTechPost.