Революционирование навыков прослушивания ИИ Университет Цинхуа и ByteDance представляют SALMONN – инновационную мультимодальную нейронную сеть для продвинутой обработки звука.

Салмонн инновационная мультимодальная нейронная сеть для прогрессивной обработки звука от Университета Цинхуа и ByteDance, революционизирующая навыки прослушивания ИИ

В нескольких приложениях обработки естественного языка модели больших языков, основанные на тексте, показали впечатляющую и даже человеческую производительность. В то же время была разработана парадигма обучения моделей больших языков под названием инструкционная настройка, при которой данные организованы в виде пар пользовательских инструкций и справочных ответов. Это позволяет моделям больших языков следовать неограниченным пользовательским командам. Исследователи все больше интересуются оснащением моделей больших языков мультимодальными сенсорными навыками. Текущие исследования сосредотачиваются на связи моделей больших языков с энкодером одного или нескольких типов входных данных – таких как изображение, беззвучное видео, аудиособытие или речь – или с энкодерами разных типов входных данных вместе.

Чтобы сопоставить пространства выходных данных энкодера с пространством входных данных моделей больших языков, что часто демонстрируется через кросс-модальное предварительное обучение и инструкционную настройку, можно использовать модуль подключения и адаптеры моделей больших языков. Предлагаемая в этом исследовании открытая нейронная сеть речи аудиоязыка музыки SALMONN представляет собой мультимодальную LLM, способную распознавать и понимать речь, аудиособытия и музыку – три основные категории звуков. SALMONN использует двухкодерную структуру, включающую аудио-кодер BEATs и речевой кодер из модели речи Whisper, для повышения производительности как в речевых, так и в неречевых аудиоприложениях.

Для дальнейшего улучшения производительности Vicuna используется стратегия адаптивного снижения ранга в качестве кросс-модального адаптера для сопоставления расширенного пространства входных данных с пространством выходных данных. Кросс-модальное предварительное обучение и инструкционная настройка для оконного уровня моделей Q-Former и LoRA, используемые множеством речевых, аудио- и музыкальных задач, позволяют получить мультимодальные LLM с малой или нулевой способностью к кросс-модальному взаимодействию и ограниченными способностями выполнять только те задачи, использованные в инструкционной настройке, например, создание аудиоописаний и распознавание голоса. Способность выполнять кросс-модальные задачи, которые не были видны во время обучения, в данном исследовании называется кросс-модальными внешними навыками. Эти навыки представляют собой неявные возможности моделей больших языков, которые теряются во время инструкционной настройки.

Для смягчения значительного эффекта катастрофического забывания задач обучения они предлагают добавить дополнительный этап настройки активации в SAVENONN. Когнитивные аудиоспособности SAVONN оцениваются с использованием различных стандартов речи, аудиособытий и музыки. Задачи имеют три уровня. Первые два уровня проверяют необученные деятельности, в то время как на первом уровне оцениваются восемь задач, которые изучаются в процессе инструкционной настройки, включая аудиоописание, перевод и распознавание речи. Второй уровень включает пять задач обработки естественного языка, основанных на речи, включая заполнение слотов и перевод на неподготовленные языки. В последнем наборе задач необходимо понимание информации через звуки, такие как аудиоистории и совместное рассуждение на основе речи. В результате экспериментов SALMONN может выполнять все эти задачи и показывает конкурентоспособность на отраслевых стандартах при использовании в качестве единой модели. Это говорит о возможности создания искусственного интеллекта, который способен “слышать” и понимать различные аудиовходы, включая речь, аудиособытия и музыку.

Основной вклад данной статьи можно сформулировать следующим образом.

• По мнению исследователей из университета Цинхуа и ByteDance, предлагается SALMONN, первая мультимодальная LLM, способная распознавать и понимать общие аудиовходы, включая голос, аудиособытия и музыку.

• Варьируя коэффициенты масштабирования LoRA, они исследуют наличие кросс-модальных внешних навыков. Они предлагают метод настройки активации низкой стоимости в качестве дополнительного этапа обучения, который может активировать эти навыки и снизить эффект катастрофического забывания задач, столкнувшихся во время обучения.

• Они представляют две новые задачи – аудиосказки и совместное рассуждение на основе речи – и оценивают SALMONN на различных задачах, представляющих широкий спектр аудиоспособностей.