Расшифровка обработки звука Как модели глубокого обучения отражают распознавание речи человеком в мозге

Расшифровка обработки звука модели глубокого обучения и распознавание речи в мозге человека

“`html

Исследования показывают, что вычисления, преобразующие звуковые данные в лингвистические представления, участвуют в восприятии речи. Звуковой путь активируется, когда кто-то слушает речь, включая первичные и неосновные аудиторные корковые области, аудиторный нерв и субкортикальные структуры. Из-за окружающих обстоятельств и изменяющихся звуковых сигналов для лингвистических восприятий, естественное восприятие речи является сложной задачей. В то время как классические когнитивные модели объясняют многие психологические особенности восприятия речи, эти модели не объясняют кодирование в мозге и естественное распознавание речи. Модели глубокого обучения приближаются к человеческой производительности в автоматизированном распознавании речи.

Чтобы улучшить интерпретируемость моделей ИИ и предоставить новые компьютерные модели сенсорного восприятия, исследователи из Университета Калифорнии, Сан-Франциско пытаются установить взаимосвязь между вычислениями и представлениями моделей глубокого обучения и нейронными откликами аудиторной системы человека. Целью является выявление общих представлений и вычислений между аудиторной системой человека и современными нейронными сетевыми моделями речи. Анализ сосредоточен на глубоких нейронных сетях (DNN), связывающихся с нейронными откликами на речь по асцендирующему звуковому пути и используя рамки нейронного кодирования.

Аудиторная система и модели глубокого обучения на базе глубоких нейронных сетей (DNN) с различными вычислительными архитектурами (свертка, рекуррентность и самовнимание) и процедурами обучения (с целевым и безцелевым обучением) систематически сравниваются. Кроме того, исследование вычислений DNN предоставляет информацию о фундаментальных процессах, которые лежат в основе прогнозирования нейронного кодирования. В отличие от ранее выполненных моделей, сосредоточенных на одном языке, в основном английском, они раскрывают языкоспецифические и языконезависимые особенности восприятия речи в своей работе, используя перекрестно-языковую парадигму.

Удивительно, как исследователи показали, что представления речи, полученные в современных DNN, тесно соответствуют ключевым элементам обработки информации в аудиторной системе человека. При предсказании нейронных откликов на настоящую речь вдоль аудиторного пути глубокие нейронные сети (DNN) проявляют себя заметно лучше, чем теоретически обусловленные акустико-фонетические наборы характеристик. Кроме того, они исследовали фундаментальные контекстные вычисления внутри глубоких нейронных сетей (DNN). Они обнаружили, что полностью безнадзорное обучение на естественной речи является способом, как эти сети приобретают важные временные структуры, связанные с языком, такие как фонемы и слоги. Эта способность усваивать языкоспецифическую лингвистическую информацию предсказывает корреляцию между DNN и нейронным кодированием в неосновной аудиторной коре. В то время как линейные модели STRF не могут раскрыть языкоспецифическое кодирование в STG во время восприятия на разных языках, модели нейронного кодирования, основанные на глубоком обучении, могут это сделать.

В заключение,

С использованием сравнительной методологии исследователи демонстрируют значительные сходства в представлении и вычислениях между DNN моделями глубокого обучения и аудиторной системой человека, способной обучаться речи. С нейронаучной точки зрения, классические модели кодирования на основе характеристик уступают компьютерным моделям на основе данных при извлечении промежуточных особенностей речи из статистических структур. Путем сравнения их с нейронными откликами и выборочной активностью они предоставляют средство для понимания “черного ящика” представлений DNN с точки зрения ИИ. Они демонстрируют, как современные DNN могли бы прийти к представлениям, которые напоминают, как человеческая аудиторная система обрабатывает информацию. По мнению исследователей, будущие исследования могут исследовать и подтвердить эти результаты с использованием более широкого диапазона моделей ИИ и более крупных и разнообразных выборок.

Статья Deciphering Auditory Processing: How Deep Learning Models Mirror Human Speech Recognition in the Brain появилась первоначально на MarkTechPost.

“`