Салмонн к обобщенным слуховым способностям для больших языковых моделей

Повышение обобщающих аудиальных навыков для больших лингвистических моделей на примере Салмона

Слух, который включает восприятие и понимание общей аудиоинформации, является важным для искусственного интеллекта в реальных средах. Эта аудиоинформация включает в себя три основных типа звуков: музыку, звуковые события и речь. Недавно текстовые модели больших языковых моделей (LLM) показали впечатляющие возможности, достигая уровня человека в широком спектре задач обработки естественного языка (NLP). Кроме того, инструкционная настройка, метод обучения, использующий пары справочных ответов и пользовательских запросов, стала популярной. Этот подход обучает большие языковые модели более эффективно следовать инструкциям пользователей. Однако текущие исследования все больше сосредоточены на усовершенствовании больших языковых моделей с возможностью восприятия мультимодального контента.

Сосредотачиваясь на этом, в этой статье мы поговорим о SALMONN или Speech Audio Language Music Open Neural Network, последней разработке в области синтеза речи, которая объединяет в себе преимущества текстовых моделей больших языков и способности распознавать и обрабатывать аудио напрямую. Модель SALMONN позволяет большим языковым моделям понимать и обрабатывать общие аудио входы непосредственно и демонстрировать конкурентоспособные результаты на широком спектре задач, связанных с аудио и речью, включая ответы на вопросы на основе акустической информации, распознавание и перевод речи, верификацию диктора, распознавание эмоций, подписывание аудио и музыки и многое другое. Мы глубже изучим структуру фреймворка SALMONN, и изучим его работу, архитектуру и результаты в широком спектре задач NLP. Итак, приступим.

SALMONN: Введение в одноструктурные мультимодальные модели больших языков с аудио-текстовым контентом

SALMONN означает Speech Audio Language Music Open Neural Network, и это одноструктурная мультимодальная модель большой языковой модели, способная воспринимать и понимать три основных типа аудио или звуков, включая речь, звуковые события и музыку. Модель SALMONN позволяет большим языковым моделям понимать и обрабатывать общие аудио входы непосредственно и демонстрировать конкурентоспособные результаты на широком спектре задач, связанных с аудио и речью.

Для улучшения своей производительности как в задачах распознавания речи, так и в задачах аудио не речевого характера, фреймворк SALMONN использует двухэнкодерную структуру, состоящую из аудиоэнкодера BEATs и речевого энкодера из речевой модели Whisper. Кроме того, фреймворк SALMONN также использует модуль соединения на основе оконного Q-Former или вопросного трансформера для эффективного преобразования выходной последовательности переменной длины энкодера в дополнительные аудио-токены переменного количества и в конечном итоге достижения высокого временного разрешения для выравнивания аудио-текста. Этот подход использует метод адаптации низкого ранга LoRA или Low Rank Adaptation в качестве кросс-модального адаптера для фреймворка Vicuna, чтобы выровнять его выходное пространство с его пространством входных данных с целью дальнейшего улучшения производительности. В фреймворке SALMONN способность выполнять кросс-модальные задачи, невидимые во время обучения, теряется во время обучения инструкциям в виде возникающих эмергентных способностей кросс-модальности, что является основной причиной, почему фреймворк SALMONN реализует дополнительный этап активации с небольшим количеством данных, чтобы восстановить общие эмергентные способности модели LLM.

Более того, фреймворк использует широкий набор аудиособытий, бенчмарки музыки и речи для оценки ее когнитивных возможностей слуха, и разделяет бенчмарки на три уровня. На первом уровне бенчмарка фреймворк обучает восемь задач во время инструкции, включая перевод, подписывание аудио и распознавание речи. Другие два уровня бенчмарка представляют собой натренированные задачи, второй уровень бенчмарка состоит из 5 задач обработки естественного языка, связанных со звуком, таких как заполнение слотов и перевод на натренированные языки, основываясь на высококачественных мультиязыковых выравниваниях между текстом и речевыми токенами. Задачи финального уровня бенчмарка пытаются понять речь и не речевую аудио информацию для совместного рассуждения речи и аудио и основаны на истории рассказа.

В заключение, фреймворк SALMONN является:

  1. Первой мультимодальной большой языковой моделью, способной понимать и воспринимать общие аудиовходы, включающие аудиособытия, речь и музыку на предельно высоком уровне.
  2. Попыткой проанализировать кросс-модальные эмергентные способности с помощью масштабирования фактора LoRA и использования дополнительного бюджетного этапа активации во время обучения для активации кросс-модальных эмергентных способностей фреймворка.

SALMONN: Архитектура и методология

В этом разделе мы рассмотрим архитектуру, метод обучения и экспериментальную установку для фреймворка SALMONN.

Архитектура модели

На ядре своей архитектуры фреймворк SALMONN синхронизирует и объединяет выводы двух аудиоэнкодеров, после чего фреймворк реализует Q-Former на уровне кадра в качестве модуля соединения. Последовательность вывода, сгенерированная Q-Former, объединяется с текстовыми инструкциями и затем подается на вход методу адаптации LoRA для генерации требуемого ответа.

Аудиоэнкодеры

Фреймворк SALMONN использует два аудиоэнкодера: энкодер звукового BEATs и энкодер речи из фреймворка Whisper OpenAI. Энкодер звукового BEATs обучается использовать самонастраиваемый итеративный подход к извлечению семантики аудио высокого уровня без речи, в то время как энкодер речи обучается на большом количестве слабо надзираемых данных для распознавания речи и перевода речи с возможностью включения фонового шума и речевой информации в характеристики энкодера. Модель сначала токенизирует входное аудио, а затем приступает к маскированию и предсказанию во время обучения. Полученные аудиторные характеристики этих двух энкодеров дополняют друг друга и подходят как для речи, так и для безречевой информации.

Window Level Q-Former

Реализация структуры Q-Former является распространенным подходом, используемым в LLM-фреймворках для преобразования вывода изображенного энкодера в текстовые токены, и требуется некоторая модификация при работе с аудио-токенами переменной длины. Более конкретно, фреймворк рассматривает вывод энкодера входного изображения как конкатенированную последовательность вывода кодировщика, а Q-Former использует фиксированное число настраиваемых запросов для преобразования последовательности вывода кодировщика в текстовые токены с использованием стека блоков Q-Former. Стек блоков Q-Former напоминает блок декодера трансформатора за исключением удаления случайных масок в слоях самовнимания и использования фиксированного числа статических настраиваемых запросов в начальных блоках.

LoRA и LLM

Фреймворк SALMONN также использует Vicuna LLM, который является крупной моделью языка LLaMA, подогнанной для более точного следования инструкциям. Фреймворк LoRA является общим методом для эффективного настройки гиперпараметров, и его включение в фреймворк SALMONN позволяет оценивать весовые матрицы и адаптировать запросы в слоях самовнимания.

Метод обучения

Фреймворк SALMONN использует трехэтапный перекрестный мультимодальный метод обучения. Этап обучения включает этап предварительного обучения и этап настройки инструкций, которые включены в большинство визуальных LLM-фреймворков, а также реализуется дополнительный этап настройки активации для решения проблем переобучения, возникающих при заголовках аудио и задачах распознавания речи.

Этап предварительного обучения

Чтобы сократить разрыв между предварительно обученными параметрами, включая кодировщики и LLM, и случайно инициализированными параметрами, включая адаптеры и соединительные модули, фреймворк SALMONN использует большое количество данных по подписям аудио и распознаванию речи для предварительного обучения компонентов LoRA и Q-Former. Эти задачи содержат важную аудиторную информацию о ключевых содержаниях аудио-событий, как речи, так и безречевой, и для их изучения не требуется сложного понимания или рассуждения для освоения соответствия между текстовой и аудиоинформацией.

Этап настройки инструкций

Этап настройки инструкций, реализованный в фреймворке SALMONN, напоминает этап, реализованный в NLP и визуальных LLM-фреймворках, используя список аудиособытий, музыкальных задач и речевых событий для настройки аудиотекстовых инструкций. Задачи классифицируются по степени их важности для различных тестов, включая распознавание телефонных разговоров, распознавание перекрытой речи и подписи музыки. Кроме того, текстовая информация, сопряженная с аудиоданными, является основой для генерации инструкций.

Переобучение задачи

Даже при реализации только первых двух этапов обучения, фреймворк SALMONN достигает конкурентоспособных результатов в задачах настройки инструкций, хотя производительность не соответствует требованиям для мультимодальных задач, особенно для задач, требующих способности к перекрестному мультимодальному рассуждению. Конкретно, модель иногда нарушает инструкции, что приводит к генерации нерелевантных или неправильных ответов, и этот феномен известен как переобучение задачи в фреймворке SALMONN, и этап настройки активации реализуется для решения этих проблем с переобучением.

Этап настройки активации

Эффективный подход к решению проблем переобучения заключается в регуляризации внутренних условных языковых моделей с использованием более длинных и разнообразных ответов, таких как рассказы или вопросно-ответная система на основе аудио-информации. Затем фреймворк генерирует тренировочные данные для таких задач с использованием текста, сопоставленного с аудио, речью или музыкальными подписями.

Технические характеристики

Для оценки возможностей SALMONN в реализации неразмеченного перекрестного модального моделирования разработчики включили 15 задач речи, звука и музыки, разделенных на три уровня.

Уровень 1

На первом уровне используются задачи для настройки инструкции и, следовательно, это самый простой набор задач, который должен выполнять фреймворк SALMONN.

Уровень 2

На втором уровне находятся незатренированные задачи, и сложность этих задач выше по сравнению с задачами уровня 1. На уровне 2 задачи основаны на обработке естественного языка, включая извлечение ключевых слов из речи, что позволяет оценить точность фреймворка при извлечении определенных ключевых слов с использованием речи. Другие задачи включают ответы на вопросы на основе голосового запроса для оценки смыслового понимания, которое фреймворк извлекает из речи, задачи заполнения слотов на основе речи, чтобы оценить точность значения слота, и, наконец, есть две задачи для преобразования с английского на немецкий и с английского на японский.

Уровень 3

Сложность задач на уровне 3 максимальна по сравнению с другими двумя уровнями и включает со-рассуждение речи и звука и задачи рассказывания историй на основе аудио. Задача со-рассуждения требует от фреймворка SALMONN понимания вопроса, содержащегося в аудиоклипе, поданном на вход модели, нахождения подтверждающих доказательств с использованием аудиособытий или музыки в фоновом режиме и, наконец, генерации подходящего объяснения для ответа на вопрос. Задачи рассказывания на основе аудио требуют, чтобы модель генерировала осмысленную историю на основе аудиоинформации, полученной из общих аудио входов.

Результаты

Задачи уровня 1

В следующей таблице представлены результаты по задачам уровня 1, и, как можно видеть, фреймворк SALMONN возвращает конкурентоспособные результаты на задачах уровня 1 с активацией или без нее.

Задачи уровня 2 и 3

Хотя фреймворк SALMONN показывает конкурентоспособные результаты на задачах уровня 1 даже без настройки, то же нельзя сказать о задачах уровня 2 и 3, так как без активации фреймворк SALMONN сильно страдает от переобучения на задачах. Производительность еще больше падает на задачах SQQA, со-рассуждении речи и рассказывании историй с акцентом на мультимодальных взаимодействиях, и фреймворк SALMONN испытывает трудности в выполнении инструкций без настройки активации. Однако с настройкой активации результаты заметно улучшаются, и результаты представлены на следующей картинке.

Фактор шкалирования с учетом снижения LoRA

Фактор снижения шкалы LoRA оценивает влияние использования временного дисконтирования фактора масштабирования LoRA для минимизации проблем переобучения на задачах. Как видно на следующей диаграмме, снижение коэффициента масштабирования LoRA до 2,0 повышает возможности перекрестного модального рассуждения фреймворка SALMONN в задачах ASR & PR, задачах SQQA, задачах рассказывания историй и задачах со-рассуждении речи соответственно.

Оценка переобучения задачи

Для акцентирования активации настройки, фреймворк SALMONN анализирует изменения в смущении во время трех этапов обучения, и, как видно на следующем изображении, изменения смущения для задач AAC и ASR имеют небольшие конечные значения после первого этапа обучения, что указывает на способность модели выявлять кросс-модальные выравнивания. 

Кроме того, смущение задачи PR также снижается после настройки инструкции благодаря ее зависимости от компонента LoRA для изучения выходных токенов. Также наблюдается, что хотя настройка инструкции помогает в снижении смущения при рассказывании и задачах SAC, разрыв все еще достаточно большой, чтобы успешно выполнять задачи, если не добавить дополнительный этап активации или удалить компонент LoRA. 

Настройка активации

Фреймворк SALMONN изучает различные способы активации, включая обучение модели по парам задач на основе текста с длинными ответами или использование звуковых историй с длинными письменными историями, а также использование длинных речевых транскрипций для задач ASR. И Q-Former, и компонент LoRA настраиваются с использованием этих трех методов. Кроме того, в рамках фреймворка игнорируются аудио и входы Q-Former в попытке настроить компоненты LoRA и Vicuna в качестве адаптивной текстовой модели большого языка, и результаты демонстрируются на следующем изображении, и, как видно, модель не может быть активирована ASR (обучение ASR с длинными метками), а также историю или тестовый контекст путем обучения компонента LoRA с использованием текстовых промптов ввода. 

Итоговые мысли

В этой статье мы рассказали о SALMONN или Speech Audio Language Music Open Neural Network, фреймворке единственной аудио-текстовой мультимодальной модели большого языка, способной воспринимать и понимать три основных типа аудио или звук, включая речь, звуковые события и музыку. Модель SALMONN позволяет большим языковым моделям понимать и обрабатывать общие аудио-входы непосредственно и достигать конкурентоспособной производительности в широком диапазоне аудио- и речевых задач. 

Фреймворк SALMONN обеспечивает конкурентоспособную производительность в широком спектре обученных задач, включая описание аудио, перевод и распознавание речи и многое другое, обобщаясь на огромное количество неподготовленных задач понимания, включая перевод речи для извлечения ключевых слов и неподготовленные языки. Благодаря своим способностям, фреймворк SALMONN может рассматриваться как следующий шаг в области развития общих слуховых способностей больших языковых моделей.