Познакомьтесь с MindGPT неинвазивным нейральным декодером, который интерпретирует воспринимаемые визуальные стимулы на естественные языки на основе сигналов фМРТ.

Ознакомьтесь с MindGPT инновационным неинвазивным нейральным декодером, который превращает визуальные стимулы в естественные языки на основе сигналов фМРТ.

Для общения с другими людьми люди могут использовать лишь ограниченное количество слов, чтобы объяснить то, что они видят во внешнем мире. Эта способность к адаптивному познанию показывает, что семантическая информация, передаваемая через язык, тесно связана с различными формами сенсорного восприятия, особенно зрения. Согласно нейронаучным исследованиям, амодальные семантические представления распространяются как визуальным, так и языковым опытом. Например, слово “кошка” генерирует концептуальную информацию, сравнимую с ментальным образом кошки. Однако, семантические связи между концептуальными категориями и плавный переход между модальностями визуального и языкового восприятия до сих пор были в некоторых случаях объективированы и реализованы с использованием вычислительных моделей.

Недавние исследования в области нейронных декодеров показали, что визуальное содержимое можно воссоздать из представлений визуальной коры, полученных с помощью функциональной магнитно-резонансной томографии. Однако сохранялись размытость и семантическая бессодержательность или несоответствие восстановленных изображений. С другой стороны, нейронаучное сообщество предоставило сильные доказательства того, что ВК мозга может получать доступ к семантическим идеям как в визуальной, так и в языковой форме. Результаты заставляют нас разрабатывать новое “мыслетрансляционное” оборудование для перевода того, что вы воспринимаете в устную речь. Такие усилия имеют значительную научную ценность в освещении механизмов кросс-модальной семантической интеграции и могут предоставить полезную информацию для мозговых компьютерных интерфейсов с аугментацией или реставрацией.

Авторы из Университета Чжэцзян представляют MindGPT, неинвазивный нейронный декодер языка, который преобразует шаблоны с обменом кислородом в варианты слов, подобные изображенным на рис. 1 слева, созданным Тангом и др. Это первая попытка создать неинвазивный нейронный декодер для восстановления воспринимаемой речи, который даже может восстановить смысл бесшумных фильмов для неинвазивного языкового декодера. Однако, поскольку у фМРТ низкое временное разрешение, для прогнозирования мелкозернистого семантического значения между кандидатскими словами и вызванными мозговыми реакциями требуется собрать много данных фМРТ.

Рисунок 1: Слева: Общая схема неинвазивного декодера языка MindGPT. Справа: Результаты нашей восстановления MindGPT, модели подписывания изображений SMALLCAP и визуальных методов декодирования VQ-fMRI и MinD-Vis.

Вместо этого исследование сосредоточено на том, насколько и в какой степени амодальные языковые карты имеют семантические метки от статических визуальных ощущений, таких как одно изображение. Их MindGPT создан, чтобы удовлетворить два важных требования: (i) способность извлекать визуальные семантические представления из активности мозга и (ii) метод преобразования изучаемых VSR в правильно структурированные последовательности слов. Они решили использовать большую языковую модель GPT-2 в качестве их текстового генератора. Эта модель предварительно обучена на наборе данных из миллионов веб-сайтов, называемом WebText, и позволяет ограничивать шаблоны предложений, чтобы они выглядели как хорошо структурированный английский язык.

Затем, чтобы заполнить разрыв в значении между мозговыми визуально-языковыми представлениями от начала и до конца, они принимают прямолинейный, но эффективный фМРТ-энкодер с кросс-вниманием, направляемым с помощью CLIP. Формулировка нейронного декодирования имеет очень низкое количество обучаемых параметров, что делает ее легкой и эффективной. В этой работе они показали, что MindGPT может служить связующим звеном между ВК мозга и компьютером для надежных семантических преобразований В&Я. Их техника изучила обобщаемые семантические представления мозга и полное понимание B & V & L модальностей, поскольку язык, который она производит, точно передает визуальную семантику наблюдаемых входных данных.

Кроме того, они обнаружили, что даже с очень небольшим количеством тренировочных данных фМРТ изображений, хорошо обученный MindGPT кажется обладать способностью записывать визуальные указатели стимульных изображений, что облегчает исследование того, как визуальные особенности влияют на языковую семантику. Они также обратили внимание с помощью визуализационного инструмента, что латентные мозговые представления, обученные MindGPT, обладают полезными локально-чувствительными характеристиками как в низкоуровневых визуальных аспектах, так и в высокоуровневых семантических идеях, что согласуется с некоторыми результатами из области нейронауки. В целом, их MindGPT показал, что, в отличие от предыдущих работ, возможно выявить семантические связи между В&Я представлениями из ВК мозга, не учитывая временное разрешение фМРТ.