Исследователи из компании Microsoft и Грузинского Технического Университета представляют TongueTap мультимодальное распознавание жестов языка с помощью носимых устройств

Носимые устройства с мультимодальным распознаванием жестов языка инновационное решение от исследователей Microsoft и Грузинского Технического Университета

Стремление к гладкому, безрукому взаимодействию в быстро развивающейся сфере носимых технологий породило прорывные открытия. TongueTap, технология, которая синхронизирует множественные потоки данных для распознавания жестов языка для управления устройствами на голове, является многообещающим разработкой. Этот метод позволяет пользователям взаимодействовать молча, не используя руки или глаза, и без необходимости специальных интерфейсов, обычно размещаемых внутри рта или близко от него.

При сотрудничестве с Microsoft Research в Редмонде, штат Вашингтон, США, исследователи из Грузинского технологического института создали интерфейс жестов языка (TongueTap), объединив датчики двух коммерчески доступных гарнитур. Обе гарнитуры содержат датчики ИИС и фотоплетизмографии (PPG). Одна из гарнитур также включает в себя датчики электроэнцефалографии (ЭЭГ), отслеживания глаза и отслеживания головы. Данные с двух гарнитур устройств Muse 2 и Reverb G2 OE были синхронизированы с помощью Lab Streaming Layer (LSL), системы для синхронизации времени, которая часто используется для мультимодальных интерфейсов мозг-компьютер.

Команда предварительно обработала конвейер, используя фильтр низких частот 128 Гц с использованием SciPy и независимого компонентного анализа (ICA) по сигналам ЭЭГ, применяя метод главных компонент (Principal Component Analysis, PCA) к другим датчикам каждый по отдельности. Для распознавания жестов они использовали метод опорных векторов (Support Vector Machine, SVM) в Scikit-Learn с использованием радиальной базисной функции (RBF) ядра с гиперпараметрами C=100 и гамма=1 для выполнения бинарной классификации и определения, содержит ли скользящее окно данных жест или нет.

Они собрали обширный набор данных для оценки распознавания жестов языка с помощью 16 участников. Самый интересный результат исследования заключается в том, какие датчики наиболее эффективно классифицируют жесты языка. Датчик ИИС на гарнитуре Muse оказался самым эффективным, достигнув 80% при его использовании. Многомодальные комбинации, включающие датчики PPG, оказались еще более эффективными, достигнув точности в 94%.

Основываясь на датчиках с наиболее высокой точностью, было замечено, что ИИС позади уха является недорогим способом обнаружения жестов языка с возможностью его комбинирования с предыдущими методами датчиков внутри рта. Для того чтобы жесты языка стали пригодными для продуктов, необходим надежный модель классификации, не зависящая от пользователя. Более экологически верный дизайн исследования с множественными сессиями и перемещением между средами необходим для перевода жестов в более реалистичные условия.

TongueTap представляет собой большой шаг в направлении гладкого и интуитивного взаимодействия с носимыми устройствами. Его способность распознавать и классифицировать жесты языка с использованием коммерчески доступной технологии открывает путь к возможности точного и удобного управления устройствами на голове. Самое перспективное применение жестов языка – управление AR-интерфейсами. Исследователи планируют изучать это многоорганное взаимодействие дальше, экспериментируя с его использованием в AR-гарнитурах и сравнивая его с другими взаимодействиями на основе взгляда.