Декодирование речи

Расшифровка речи

.fav_bar { float:left; border:1px solid #a7b1b5; margin-top:10px; margin-bottom:20px; } .fav_bar span.fav_bar-label { text-align:center; padding:8px 0px 0px 0px; float:left; margin-left:-1px; border-right:1px dotted #a7b1b5; border-left:1px solid #a7b1b5; display:block; width:69px; height:24px; color:#6e7476; font-weight:bold; font-size:12px; text-transform:uppercase; font-family:Arial, Helvetica, sans-serif; } .fav_bar a, #plus-one { float:left; border-right:1px dotted #a7b1b5; display:block; width:36px; height:32px; text-indent:-9999px; } .fav_bar a.fav_print { background:url(‘/images/icons/print.gif’) no-repeat 0px 0px #FFF; } .fav_bar a.fav_print:hover { background:url(‘/images/icons/print.gif’) no-repeat 0px 0px #e6e9ea; } .fav_bar a.mobile-apps { background:url(‘/images/icons/generic.gif’) no-repeat 13px 7px #FFF; background-size: 10px; } .fav_bar a.mobile-apps:hover { background:url(‘/images/icons/generic.gif’) no-repeat 13px 7px #e6e9ea; background-size: 10px} .fav_bar a.fav_de { background: url(/images/icons/de.gif) no-repeat 0 0 #fff } .fav_bar a.fav_de:hover { background: url(/images/icons/de.gif) no-repeat 0 0 #e6e9ea } .fav_bar a.fav_acm_digital { background:url(‘/images/icons/acm_digital_library.gif’) no-repeat 0px 0px #FFF; } .fav_bar a.fav_acm_digital:hover { background:url(‘/images/icons/acm_digital_library.gif’) no-repeat 0px 0px #e6e9ea; } .fav_bar a.fav_pdf { background:url(‘/images/icons/pdf.gif’) no-repeat 0px 0px #FFF; } .fav_bar a.fav_pdf:hover { background:url(‘/images/icons/pdf.gif’) no-repeat 0px 0px #e6e9ea; } .fav_bar a.fav_more .at-icon-wrapper{ height: 33px !important ; width: 35px !important; padding: 0 !important; border-right: none !important; } .a2a_kit { line-height: 24px !important; width: unset !important; height: unset !important; padding: 0 !important; border-right: unset !important; border-left: unset !important; } .fav_bar .a2a_kit a .a2a_svg { margin-left: 7px; margin-top: 4px; padding: unset !important; }

Активность мозга может быть записана путем хирургической имплантации устройства в области речи мозга или с использованием неинвазивных систем, таких как электроэнцефалографы. Кредит: A Health Blog

Вместо того, чтобы разговаривать с цифровыми голосовыми помощниками, такими как Alexa и Siri, мы вскоре сможем взаимодействовать с нашими устройствами, просто думая о том, что хотим сказать им. Для этого исследователи пытаются декодировать активность мозга, связанную с речью, используя преимущества интерфейсов мозг-компьютер (BCI) – систем, которые записывают сигналы мозга, анализируют их и преобразуют их в команды, а также искусственного интеллекта (ИИ).

“[Если мы продвинемся в ближайшие годы], я уверен, что мы сможем применить эти решения в реальных приложениях”, – говорит Морис Рекрут, исследователь и руководитель лаборатории когнитивных помощников BCI-Lab в Немецком исследовательском центре искусственного интеллекта (DFKI) в Кайзерслаутерне, Германия.

Декодирование речи с помощью BCI также представляет особый интерес для помощи людям с определенными состояниями в общении. Нервные клетки, передающие сообщения мышцам, участвующим в речи, могут повреждаться из-за таких заболеваний, как болезнь двигательных нейронов (MND) и амиотрофический батериальный склероз (ALS), что, например, влияет на способность человека говорить. Часто пациенты используют системы управления взглядом в сочетании с предиктивным текстом, чтобы набирать то, что они хотят передать, но это может быть медленным и разочаровывающим процессом. “Важно попытаться вернуть людям не только естественность речи, но и плавность и скорость речи”, – говорит Скотт Веллингтон, научный сотрудник проекта dSPEECH в Университете Бат в Великобритании. “Это то, что мы можем сделать с помощью BCI”.

Активность мозга может быть записана путем хирургической имплантации устройства в области речи мозга или с использованием неинвазивных систем, таких как электроэнцефалографы, которые регистрируют электрические сигналы в тех же областях мозга через датчики, размещенные на коже головы (тесты, которые они выполняют, известны как электроэнцефалограммы или ЭЭГ). Однако существует много преград, которые нужно преодолеть, прежде чем сигналы речи можно будет эффективно записывать.

Например, импланты в настоящее время обещают больше, так как их можно размещать непосредственно в областях мозга, отвечающих за обработку речи, что приводит к получению сигналов более высокого разрешения. Однако существующие устройства нельзя удалить, не повредив мозг.

Многие исследователи также экспериментируют с ЭЭГ, но сигналы значительно ослаблены к моменту их достижения кожи головы.

“Нам нужно найти очень умные способы обработки сигнала для разложения его на набор статистически значимых особенностей”, – говорит Веллингтон.

В недавней работе Веллингтон и его коллеги исследовали возможности декодирования речи с помощью коммерчески доступных гарнитур ЭЭГ, используя данные о мозговых волнах. Их целью было определить, могут ли они достичь такой же точности декодирования, как у исследовательских устройств ЭЭГ, путем внедрения более сложных методов машинного обучения и обработки сигналов.

В своем эксперименте они сосредоточились на 16 английских фонемах – отдельных звуковых единицах, таких как p, b, d и t. Двадцать одному участнику предложили надеть гарнитуры ЭЭГ массового производства и слушать фонемы, представлять их себе и произносить вслух. В каждом случае записывалась мозговая активность, зарегистрированная с датчиков ЭЭГ.

Используя данные, исследователи обучили классическую модель машинного обучения и более сложную глубокую модель сверточной нейронной сети для декодирования разных классов фонем. Их удивило то, что традиционная модель показала себя лучше. “Время от времени исследователи, занимающиеся декодированием речи в мозге, открывают, что классические модели машинного обучения все равно обычно показывают хорошие результаты, даже по сравнению с глубокими моделями обучения”, – говорит Веллингтон. Его команда не уверена в причинах этого, но они предполагают, что дело в том, что глубокие модели обучения обычно требуют большого объема данных для эффективной работы.

Однако классическая модель машинного обучения смогла достаточно хорошо различать некоторые фонемы, но далеко не могла успешно расшифровывать понятную речь. Веллингтон говорит, что ее производительность можно значительно улучшить, внедрив большую языковую модель, такую как GPT-3 от Open AI, что является общепринятой практикой в этой области. Эти модели учитывают вероятность потенциальных слов в зависимости от контекста. “Исходя из правил английского языка и статистики распределения всех английских фонем, [большая языковая модель] может с высокой степенью уверенности сказать, что слово, которое вы пытаетесь произнести, вероятно, ‘дом’, например”, – говорит Веллингтон.

Еще одной проблемой является то, что системы декодирования речи часто сосредоточены на сигналах от нервных клеток, отвечающих за движение артикуляторов, производящих речь, которые ингибируются у людей с повреждением нервов из-за таких состояний, как боковой амиотрофический склероз и боковой амиотрофический склероз. Однако у здоровых людей эти сигналы приводят к фактической речи, поэтому они подходят только для некоторых людей, утративших эту способность. “Самые передовые исследования по декодированию попыток речи также показали, что для людей с потерей естественной речи попытка говорить на самом деле может стать все более и более изнурительной задачей на протяжении длительных периодов”, – говорит Веллингтон.

Вместо этого декодирование представляемой речи – содержимого нашего внутреннего монолога или голоса при чтении – может привести к созданию системы, которую могут использовать все и которая требует меньшего усилия. Однако декодирование представляемой речи может быть сложной задачей по ряду причин. Например, паттерны активности мозга могут быть сильно изменчивыми, так как разные люди часто думают о речи по-разному: одни могут представлять себе произнесение слова, в то время как другие формируют ментальное изображение движения мышц во время разговора, что приводит к различным типам сигналов мозга.

Кроме того, фоновая активность, которая является результатом нашего психологического состояния, например, то, хорошо ли мы выспались накануне, может влиять на захватываемые сигналы. Это означает, что активность мозга, связанная с речью, не является постоянной для одного человека. “Вы столкнетесь с проблемами при применении классификатора [алгоритма машинного обучения], который вы обучили в первый день, когда [участник] был очень возбужден, на второй день, когда он был очень устал”, – говорит Рекрут.

В проекте, начинающемся в октябре, Рекрут и его коллеги намерены справиться с этой проблемой, проведя исследования декодирования речи с участниками в различных условиях, таких как утром и вечером, в течение нескольких недель до года. Сбор большого объема данных, а также информации от участников о их психологическом состоянии, должен позволить им выявить, как различные факторы влияют на активность мозга и производительность интерфейсов мозг-компьютер. “Мы постараемся предоставить все эти данные классификатору и посмотреть, сможем ли мы найти закономерности”, – говорит Рекрут. “Когда участники устают, возможно, мы сможем обнаружить определенный паттерн, который мы сможем затем отфильтровать из электроэнцефалограммы и предоставить это знание сообществу.”

Представленная речь также сложнее декодировать, чем попытка произнести речь, поскольку нейронные сигналы более тонкие. В рамках нового проекта под названием dSPEECH Веллингтон и его коллеги стремятся расшифровать ее с гораздо большей точностью, исследуя два различных подхода, которые в конечном итоге могут быть объединены: электрокортикография – инвазивный метод, который предполагает имплантацию электродов в кожу головы для регистрации высокоразрешающих сигналов на поверхности, и sEEG – метод, который использует зонды с датчиками для извлечения речезависимых сигналов из глубины мозга.

Они также попытаются расшифровать 44 фонемы английского языка с разумной степенью точности, разрабатывая систему обработки сигналов и машинное обучение. Фокусировка на отдельных звуках, которые могут быть объединены, должна значительно увеличить количество слов, которые можно расшифровать. В настоящее время лучшие системы могут расшифровывать около 300 английских слов, что недостаточно даже для базовой коммуникации.

Целью Веллингтона является создание системы, в которой способность людей к коммуникации не будет ограничена. Она также позволит расшифровывать имена, что является сложной задачей для существующих систем, поскольку требуется записывать мозговую активность, связанную с каждым именем. Для людей, неспособных говорить, возможность обращаться к кому-то по имени является важным элементом коммуникации, говорит Веллингтон.

“С декодированием на уровне фонем вы вдруг можете произнести любое слово, которое хотите”, – добавляет он. “Я уверен, что это путь вперед”.

Сандрин Серстемон – фрилансер-научный писатель, работающий в Лондоне, Великобритания.