Расшифровка эмоций раскрывая чувства и психические состояния с помощью EmoTX, новой AI-платформы на основе трансформера

Эмоциональный анализ через EmoTX, новую AI-платформу на основе трансформера

Фильмы являются одним из самых художественных выражений историй и чувств. Например, в фильме “В погоне за счастьем” главный герой переживает различные эмоции, испытывая падения, такие как расставание и бездомность, и успехи, такие как достижение заветной работы. Эти интенсивные чувства привлекают зрителей, которые могут сопереживать путешествию персонажа. Для понимания таких повествований в области искусственного интеллекта (ИИ) становится важным, чтобы машины могли отслеживать развитие эмоций и психического состояния персонажей на протяжении всей истории. Эта задача решается с помощью использования аннотаций из MovieGraphs и обучения моделей для наблюдения за сценами, анализа диалогов и предсказания эмоционального и психического состояния персонажей.

Тема эмоций широко исследовалась на протяжении истории; от четырехкратной классификации Цицерона в Древнем Риме до современных исследований мозга, концепция эмоций всегда привлекала интерес человечества. Психологи внесли свой вклад в это поле, представив такие структуры, как колесо Плутчика или предложение Экмана о универсальных выражениях лица, предлагая различные теоретические рамки. Аффективные эмоции также классифицируются по психическим состояниям, охватывающим эмоциональные, поведенческие и когнитивные аспекты и физические состояния.

В недавнем исследовании проект под названием Emotic представил 26 отдельных кластеров эмоциональных меток при обработке визуального контента. В этом проекте была предложена многометочная структура, позволяющая изображению одновременно передавать различные эмоции, такие как спокойствие и вовлеченность. В качестве альтернативы традиционному категориальному подходу, исследование также включало три непрерывных измерения: валентность, активация и доминирование.

Анализ должен охватывать различные контекстные модальности, чтобы точно предсказывать широкий спектр эмоций. Основные направления в мультимодальном распознавании эмоций включают распознавание эмоций в разговорах (ERC), которое включает классификацию эмоций для каждого случая обмена диалогом. Другой подход – предсказание единого значения валентности-активности для коротких сегментов фильмов.

Работа на уровне сцены фильма предполагает работу с коллекцией кадров, которые совместно рассказывают под-историю в определенном месте, с определенным составом актеров и происходящих в течение короткого временного интервала от 30 до 60 секунд. Эти сцены предлагают значительно большую продолжительность, чем отдельные диалоги или отрывки из фильмов. Целью является прогнозирование эмоций и психического состояния каждого персонажа в сцене, включая накопление меток на уровне сцены. Учитывая расширенное временное окно, такая оценка естественным образом приводит к многометочному подходу классификации, поскольку персонажи могут передавать несколько эмоций одновременно (например, любопытство и путаницу) или переходить от одной к другой из-за взаимодействия с другими (например, смена с беспокойства на спокойствие).

Более того, хотя эмоции могут быть широко классифицированы как часть психических состояний, в данном исследовании делается разграничение между выраженными эмоциями, которые явно проявляются в манере поведения персонажа (например, удивление, грусть, злость), и скрытыми психическими состояниями, которые можно определить только через взаимодействия или диалоги (например, вежливость, решительность, уверенность, полезность). Авторы утверждают, что эффективная классификация в рамках широкого эмоционального пространства требует учета мультимодального контекста. В качестве решения они предлагают EmoTx, модель, которая одновременно использует видеокадры, диалоговые высказывания и внешность персонажей.

Обзор такого подхода представлен на рисунке ниже.

https://arxiv.org/abs/2304.05634

EmoTx использует метод на основе Transformer для определения эмоций на уровне персонажа и сцены фильма. Процесс начинается с предварительной обработки видео и извлечения признаков, которые извлекают соответствующие представления из данных. Эти признаки включают видеоданные, лица персонажей и текстовые признаки. В этом контексте вводятся подходящие вложения для токенов для дифференциации на основе модальностей, перечисления персонажей и временного контекста. Кроме того, генерируются токены, которые выполняют функцию классификаторов для отдельных эмоций и связываются со сценой или отдельными персонажами. После встраивания этих токенов они объединяются с помощью линейных слоев и передаются на кодировщик Transformer, позволяя интеграцию информации по разным модальностям. Компонент классификации метода черпает вдохновение из предыдущих исследований по многометочной классификации с применением Transformer.

Пример поведения EmoTx, опубликованный авторами и связанный с сценой из фильма “Форрест Гамп”, представлен на следующей иллюстрации.

https://arxiv.org/abs/2304.05634

Это было краткое описание EmoTx, новой архитектуры EmoTx на основе трансформера искусственного интеллекта, которая предсказывает эмоции субъектов, появляющихся в видеоклипе, используя подходящие мультимодальные данные. Если вас интересует и вы хотите узнать больше об этом, пожалуйста, обратитесь к ссылкам, указанным ниже.