Может ли одна модель искусственного интеллекта освоить все аудиозадачи? Познакомьтесь с UniAudio новой универсальной системой генерации аудиовоспроизведения.

Может ли модель искусственного интеллекта овладеть всеми аудиозадачами? Познакомьтесь с UniAudio - новой универсальной системой генерации звука.

Одним из ключевых аспектов генеративного искусственного интеллекта является генерация звука. В последние годы популярность генеративного искусственного интеллекта привела к появлению все более разнообразных и новейших потребностей в производстве звука. Например, технологии текст-в-звук и текст-в-музыку предполагают создание аудио на основе человеческих запросов для синтеза речи (TTS), голосовой конвертации (VC), синтеза голоса при пении (SVS) и голосовой конвертации (VC). Большинство ранних усилий по созданию звука имели задачно-специфические конструкции, которые в значительной степени опирались на экспертизу в области и могли использоваться только в фиксированных конфигурациях. Цель данного исследования заключается в создании универсального аудиогенератора, который будет обрабатывать множество задач создания звука с помощью единой модели, вместо обработки каждой задачи отдельно.

Предполагается, что универсальная модель аудиогенерации будет накапливать достаточный накопленный опыт в области звука и связанных модальностей для обеспечения простых и эффективных решений для растущей потребности в создании разнообразного аудио. Работы на основе метода Большой Языковой Модели (LLM) с исключительной производительностью в задачах генерации текста вдохновили несколько моделей генерации аудио на основе метода LLM. Из этих исследований независимость LLM в задачах, таких как текст-в-речь (TTS) и производство музыки, получила значительное изучение и продемонстрировала высокую конкурентоспособность. Однако потенциал LLM для обработки множества задач требует большего использования в исследованиях генерации аудио, поскольку большинство работ, основанных на LLM, все еще сосредоточены на одиночных задачах.

Предполагается, что парадигма LLM обладает потенциалом достижения универсальности и разнообразия в создании аудио, но пока не была достаточно исследована. В данном исследовании исследователи из Китайского университета Гонконга, Карнеги Меллона, Майкрософт Рисерч Азия и Чжэцзянского университета представляют UniAudio, который использует подходы LLM для производства различных жанров аудио (речь, шумы, музыку и пение) на основе нескольких модальностей ввода, включая последовательности фонем, текстовые описания и само аудио. Далее представлены основные особенности планируемого UniAudio: все аудиоформаты и модальности ввода сначала токенизируются как дискретные последовательности. Для успешной токенизации аудио независимо от его формата разработана универсальная нейронная модель кодека, и используются несколько токенизаторов для токенизации различных модальностей ввода.

https://arxiv.org/abs/2310.00704

Затем исходно-целевая пара объединяется в одну последовательность с помощью UniAudio. Наконец, UniAudio использует LLM для предсказания следующего токена. Техника токенизации использует остаточное векторное квантование на основе нейронных кодеков, создавая избыточно длинные последовательности токенов (один фрейм эквивалентен нескольким токенам), которые LLM не может эффективно анализировать. Внутри- и межкадровая корреляция моделируется независимо в многоуровневой трансформерной архитектуре, предназначенной для уменьшения вычислительной сложности. В частности, глобальный модуль трансформера представляет корреляцию между кадрами (например, на семантическом уровне), в то время как локальный модуль трансформера моделирует корреляцию внутри кадров (например, на акустическом уровне). Построение UniAudio включает два шага для демонстрации его масштабируемости на новые проекты.

Во-первых, предлагаемый UniAudio обучается одновременно на различных задачах генерации аудио, чтобы модель получила достаточные предыдущие знания о внутренних характеристиках аудио и взаимосвязях между аудио и другими модальностями ввода. Во-вторых, с небольшими изменениями обученная модель сможет приспособиться для выполнения дополнительных задач создания аудио, которые не видны на данный момент. Благодаря этому возможности непрерывно приспосабливаться к появляющимся требованиям в генерации аудио, UniAudio имеет потенциал стать фундаментальной моделью для универсальной генерации аудио. Метод построения UniAudio обеспечивает возможность экспериментально поддерживать 11 задач генерации аудио: на этапе обучения покрываются семь профессиональных задач генерации аудио, а на этапе доведения до совершенства добавляются четыре задачи. Для приспособления к 165 тыс. часов аудио и 1 млрд параметров был увеличен метод построения UniAudio.

UniAudio последовательно достигает конкурентоспособной производительности во всех 11 задачах согласно объективным и субъективным критериям оценки. Большинство из этих задач достигают современной производительности. Это исследование также указывает на то, что одновременное выполнение нескольких задач на этапе обучения приносит пользу всем задачам включенным в обучение UniAudio. Кроме того, UniAudio превосходит модели, предназначенные для определенных задач, демонстрируя значительные различия и способность быстро адаптироваться к новым задачам генерации аудио. В заключение, данная работа показывает, что разработка универсальных моделей генерации аудио является важной, положительной и выгодной.

Вот краткое изложение ключевых результатов этой работы:

(1) В рамках достижения универсальной генерации аудио UniAudio предлагается как единое решение для 11 задач генерации аудио, что превышает все предыдущие усилия в этой области.

(2) Относительно техники, UniAudio предлагает свежие идеи для (i) последовательного представления звука и других модальностей ввода, (ii) согласованной формулировки для задач аудиопроизводства на основе LLM и (iii) эффективной модельной архитектуры, разработанной специально для генерации звука.

(3) Обширные результаты тестирования подтверждают общую производительность UniAudio и демонстрируют преимущества создания гибкой парадигмы генерации звука.

(4) Демонстрационный материал и исходный код UniAudio становятся общедоступными, в надежде на то, что они помогут развитию производства звука в будущих исследованиях в качестве модели-основы.