Исследователи Meta AI представляют модель машинного обучения, которая исследует декодирование восприятия речи из неинвазивной записи мозга.

Метаисследователи представляют модель машинного обучения для декодирования речевого восприятия из записи без вмешательства в мозг.

Расшифровка речи из активности мозга, давняя цель в области здравоохранения и нейронауки, недавно прогрессирует благодаря инвазивным устройствам. Алгоритмы глубокого обучения, обученные на внутрикортикальных записях, могут декодировать базовые лингвистические элементы. Однако расширение этого подхода на естественную речь и неинвазивные записи мозга представляет собой вызов. Исследователи из Meta представляют модель машинного обучения, использующую контрастное обучение, для декодирования воспринятых речевых представлений из неинвазивных записей. Их метод объединяет четыре набора данных и достигает многообещающих результатов, предлагая потенциальный путь для декодирования языка на основе активности мозга без инвазивных процедур, с перспективами в области здравоохранения и нейронауки.

Исследователи исследуют декодирование речи из неинвазивных записей активности мозга, возлагаясь на недавние успехи с инвазивными устройствами в расшифровке лингвистических элементов. Их метод представляет модель контрастного обучения, обученную декодировать самообучаемые речевые представления. Сравнения с инвазивными исследованиями подчеркивают их более обширный словарный запас и потенциальные применения в речевом производстве. Были получены этические разрешения для наборов данных здоровых взрослых добровольцев, включающих пассивное прослушивание.

Декодирование речи из неинвазивных записей мозга является значительным вызовом в области здравоохранения и нейронауки. В то время как инвазивные устройства прогрессируют, расширение этого подхода на естественную речь остается трудным. Их подход представляет модель, обученную с помощью контрастного обучения, для декодирования самообучаемых речевых представлений из неинвазивных данных. Их прогресс предлагает надежду на декодирование языка на основе активности мозга без инвазивных процедур.

Их метод вводит задачу нейрального декодирования для расшифровки воспринимаемой речи из неинвазивных записей активности мозга. Модель обучается и оценивается с использованием четырех общедоступных наборов данных с 175 добровольцами, записанными с помощью МЭГ или ЭЭГ во время прослушивания историй. Она использует общую сверточную архитектуру, одновременно обученную на нескольких участниках. Сравнительный анализ с базовыми уровнями подчеркивает значимость контрастной цели и предварительно обученных речевых представлений. Кроме того, предсказания декодера в основном опираются на лексические и контекстуальные семантические представления.

Точность декодирования варьировалась среди участников и наборов данных. Предсказания на уровне слов показали точную идентификацию правильных слов и отличение от негативных кандидатов. Сравнение с базовыми уровнями подчеркнуло значимость контрастной цели, предварительно обученных речевых представлений и общей сверточной архитектуры в повышении точности декодирования. Предсказания декодера в основном опирались на лексические и контекстуальные семантические представления.

Исследователи представляют модель, основанную на контрастном обучении, для декодирования воспринимаемой речи из неинвазивных записей активности мозга. Их модель демонстрирует многообещающие результаты, достигая средней точности до 41% в идентификации речевых сегментов и до 80% точности у лучших участников. Сравнение с базовыми уровнями подчеркивает важность контрастных целей, предварительно обученных речевых представлений и общей сверточной архитектуры в повышении точности декодирования. Предсказания декодера в основном опираются на лексическую и контекстуальную семантику. Их работа имеет потенциал для неинвазивного декодирования языка в области здравоохранения и нейронауки.

Будущие исследования должны разъяснить факторы, влияющие на вариации точности декодирования среди участников и наборов данных. Исследование производительности модели в решении более сложных лингвистических атрибутов и сценариев восприятия речи в реальном времени является важным. Оценка обобщаемости модели на различные методики записи или изображения активности мозга является необходимым. Исследование ее способности воспринимать просодию и фонетические особенности позволило бы получить всесторонний взгляд на декодирование речи.