Познакомьтесь с LLaSM Крупной мультимодальной речево-языковой моделью, обученной на всем пути с возможностью перекрестно-модального разговора и способной следовать инструкциям по речи и языку.

Познакомьтесь с LLaSM - мультимодальной речево-языковой моделью, обученной на всем пути и способной перекрестно-модальному разговору и следованию инструкциям.

Речь несет больше информации, чем письменность, поскольку она учитывает семантику и паразитарную информацию, такую как тон. Кроме того, разговорная речь является более практичным и органичным подходом для общения с искусственным интеллектом. Следовательно, при создании универсального ассистента необходимо придерживаться речевых и языковых рекомендаций. Однако большинство крупных языковых моделей принимают только текстовый ввод, ограничивая их потенциал. Хотя мультимодальные модели видения и языка обеспечивают значительное развитие общего искусственного интеллекта (AGI), людям все еще неудобно вводить задачи, используя текстовые инструкции.

Автоматическая система распознавания речи (ASR) используется в подходах каскадной парадигмы для преобразования речевого ввода в текстовый ввод, который модель может использовать для обработки задания. Переход от речи к тексту все равно приводит к потреблению информации и может привносить ошибки системы ASR. Недавно появились речевые мультимодальные модели с использованием большой языковой модели, которая обрабатывает и производит голос и текст, способные понимать и создавать мультимодальную информацию. Речевые сигналы разбиваются на отдельные токены и расширяются до словаря LLM. В этом смысле LLM требует обширных мультимодальных данных и мощных вычислительных ресурсов для повторного обучения.

Авторы из LinkSoul.AI, Пекинского университета и 01.ai предлагают LLaSM, крупную речевую модель с кросс-модальными разговорными возможностями, способную понимать и следовать устным командам в этом исследовании. Они используют хорошо обученный речевой модальный кодировщик и LLM, подобно LLaVA, что делает LLaSM более ресурсоэффективным. Они специально используют Whisper в качестве голосового кодировщика для инкорпорации речевых сигналов. Текстовые эмбеддинги входных данных большой языковой модели соответствуют эмбеддингам речи с использованием модального адаптера. Для создания переплетенных последовательностей комбинируются речевые и текстовые эмбеддинги. Затем переплетенные последовательности подаются на вход LLM для контролируемого дообучения.

Обучение проходит в две фазы. В начальной стадии они используют общедоступные наборы данных ASR для предварительного обучения модели адаптации модальности. Только модальный адаптер обучается для выравнивания эмбеддингов голоса и текста; LLM и речевой кодировщик заблокированы. Поскольку на этой стадии вводится небольшая часть параметров модального адаптера, и большинство параметров модели все еще требуют фиксации, это не требует больших ресурсов. На втором этапе используются данные кросс-модальных инструкций для обучения модели обрабатывать мультимодальные инструкции и анализировать кросс-модальное взаимодействие. Во время изменения настроек языковой модели и модального адаптера для кросс-модального обучения голосовой кодировщик замораживается.

Важно отметить, что доступно немного открытых наборов данных межмодальных инструкций речь-текст. Поэтому они создали и выпустили набор данных LLaSM-Audio-Instructions. Набор данных создается путем тщательного выбора бесед из GPT4-LLM, ShareGPT и WizardLM, а затем создания значительного количества разговорных аудиоданных с использованием технологии текст в речь. По их данным, это самый большой китайский и английский набор данных для следования межмодальным инструкциям речь-текст, с 199 тыс. диалогов, 80 тыс. китайских аудиообразцов и 428 тыс. английских аудиообразцов.

Их исследование вносит следующий вклад:

• Они создают речевую мультимодальную модель, способную понимать и выполнять речевые команды, предлагая более практичный и органичный подход для общения с искусственным интеллектом.

• Они создают и публикуют LLaSM-Audio-Instructions, большой набор данных для следования кроссмодальным инструкциям, объединяющий китайский и английский речь и текст.

• Демонстрацию можно просмотреть на сайте HuggingFace, а код доступен на GitHub.