Революционирование навыков прослушивания ИИ Университет Цинхуа и ByteDance представляют SALMONN – инновационную мультимодальную нейронную сеть для продвинутой обработки звука.
Салмонн инновационная мультимодальная нейронная сеть для прогрессивной обработки звука от Университета Цинхуа и ByteDance, революционизирующая навыки прослушивания ИИ
В нескольких приложениях обработки естественного языка модели больших языков, основанные на тексте, показали впечатляющую и даже человеческую производительность. В то же время была разработана парадигма обучения моделей больших языков под названием инструкционная настройка, при которой данные организованы в виде пар пользовательских инструкций и справочных ответов. Это позволяет моделям больших языков следовать неограниченным пользовательским командам. Исследователи все больше интересуются оснащением моделей больших языков мультимодальными сенсорными навыками. Текущие исследования сосредотачиваются на связи моделей больших языков с энкодером одного или нескольких типов входных данных – таких как изображение, беззвучное видео, аудиособытие или речь – или с энкодерами разных типов входных данных вместе.
Чтобы сопоставить пространства выходных данных энкодера с пространством входных данных моделей больших языков, что часто демонстрируется через кросс-модальное предварительное обучение и инструкционную настройку, можно использовать модуль подключения и адаптеры моделей больших языков. Предлагаемая в этом исследовании открытая нейронная сеть речи аудиоязыка музыки SALMONN представляет собой мультимодальную LLM, способную распознавать и понимать речь, аудиособытия и музыку – три основные категории звуков. SALMONN использует двухкодерную структуру, включающую аудио-кодер BEATs и речевой кодер из модели речи Whisper, для повышения производительности как в речевых, так и в неречевых аудиоприложениях.
Для дальнейшего улучшения производительности Vicuna используется стратегия адаптивного снижения ранга в качестве кросс-модального адаптера для сопоставления расширенного пространства входных данных с пространством выходных данных. Кросс-модальное предварительное обучение и инструкционная настройка для оконного уровня моделей Q-Former и LoRA, используемые множеством речевых, аудио- и музыкальных задач, позволяют получить мультимодальные LLM с малой или нулевой способностью к кросс-модальному взаимодействию и ограниченными способностями выполнять только те задачи, использованные в инструкционной настройке, например, создание аудиоописаний и распознавание голоса. Способность выполнять кросс-модальные задачи, которые не были видны во время обучения, в данном исследовании называется кросс-модальными внешними навыками. Эти навыки представляют собой неявные возможности моделей больших языков, которые теряются во время инструкционной настройки.
- Познакомьтесь с помощником по кодированию Watsonx от IBM Революционирование предприятийного кодирования с помощью искусственного интеллекта
- Познакомьтесь с Davidsonian Scene Graph революционной AI-системой для оценки точности преобразования текста в изображение
- 18 Трендов и прогнозов разработки программного обеспечения на 2024 год
Для смягчения значительного эффекта катастрофического забывания задач обучения они предлагают добавить дополнительный этап настройки активации в SAVENONN. Когнитивные аудиоспособности SAVONN оцениваются с использованием различных стандартов речи, аудиособытий и музыки. Задачи имеют три уровня. Первые два уровня проверяют необученные деятельности, в то время как на первом уровне оцениваются восемь задач, которые изучаются в процессе инструкционной настройки, включая аудиоописание, перевод и распознавание речи. Второй уровень включает пять задач обработки естественного языка, основанных на речи, включая заполнение слотов и перевод на неподготовленные языки. В последнем наборе задач необходимо понимание информации через звуки, такие как аудиоистории и совместное рассуждение на основе речи. В результате экспериментов SALMONN может выполнять все эти задачи и показывает конкурентоспособность на отраслевых стандартах при использовании в качестве единой модели. Это говорит о возможности создания искусственного интеллекта, который способен “слышать” и понимать различные аудиовходы, включая речь, аудиособытия и музыку.
Основной вклад данной статьи можно сформулировать следующим образом.
• По мнению исследователей из университета Цинхуа и ByteDance, предлагается SALMONN, первая мультимодальная LLM, способная распознавать и понимать общие аудиовходы, включая голос, аудиособытия и музыку.
• Варьируя коэффициенты масштабирования LoRA, они исследуют наличие кросс-модальных внешних навыков. Они предлагают метод настройки активации низкой стоимости в качестве дополнительного этапа обучения, который может активировать эти навыки и снизить эффект катастрофического забывания задач, столкнувшихся во время обучения.
• Они представляют две новые задачи – аудиосказки и совместное рассуждение на основе речи – и оценивают SALMONN на различных задачах, представляющих широкий спектр аудиоспособностей.