Исследователи Alibaba представляют серию Qwen-Audio набор крупномасштабных аудио-языковых моделей с универсальными возможностями аудиоанализа.

Ученые из Alibaba представляют серию Qwen-Audio масштабные языковые модели, обладающие уникальными возможностями аудиоанализа

Исследователи из группы Alibaba представили Qwen-Audio, который решает проблему ограниченного числа предварительно обученных аудиомоделей для различных задач. Разработана иерархическая многофункциональная структура на основе меток для избежания проблем с вмешательством при совместном обучении. Qwen-Audio достигает впечатляющих результатов на стандартных задачах без специфической настройки под каждую задачу. Qwen-Audio-Chat, основанный на Qwen-Audio, поддерживает многоразовый диалог и разнообразные аудиоцентрические сценарии, демонстрируя его универсальные возможности понимания аудио.

Qwen-Audio преодолевает ограничения предыдущих моделей аудио-языка, работая с разными типами и задачами аудио. В отличие от предыдущих работ, ограниченных речью, Qwen-Audio включает в себя речь человека, естественные звуки, музыку и песни, что позволяет совместное обучение на наборах данных с разной детализацией. Модель достигает отличных результатов в задачах распознавания и восприятия речи без специфических модификаций. Qwen-Audio-Chat расширяет эти возможности, выстраивая взаимодействие с человеком, поддерживая многоязычные, многоразовые диалоги на основе аудио и текстовых входов, демонстрируя надежное и всеобъемлющее понимание аудио.

Общие модели искусственного интеллекта отличаются высокой интеллектуальной способностью, но обладают ограниченным пониманием аудио. Qwen-Audio решает эту проблему, охватывая требуемые задачи и разные типы аудио в процессе предварительного обучения. Многофункциональная структура позволяет избежать вмешательства, обеспечивая обмен знаниями. Qwen-Audio демонстрирует впечатляющие результаты на стандартных задачах без специфической настройки под каждую задачу. Qwen-Audio-Chat, как расширение, поддерживает многоразовые диалоги и разнообразные аудиоцентрические сценарии, демонстрируя всеобъемлющие возможности взаимодействия с аудио в общих моделях искусственного интеллекта.

Qwen-Audio и Qwen-Audio-Chat – это модели для универсального понимания аудио и гибкого взаимодействия с человеком. Qwen-Audio использует многофункциональный подход к предварительному обучению, оптимизируя кодировщик аудио и фиксируя веса модели языка. В отличие от этого, Qwen-Audio-Chat использует надзорную настройку с оптимизацией модели языка и фиксацией весов кодировщика аудио. Процесс обучения включает многофункциональное предварительное обучение и надзорную настройку. Qwen-Audio-Chat обеспечивает гибкое взаимодействие с человеком, поддерживая многоразовые диалоги на основе аудио и текстовых входов, демонстрируя свою адаптивность и всеобъемлющее понимание аудио.

Qwen-Audio демонстрирует замечательные результаты в различных стандартных задачах, превосходя аналоги без специфической настройки под каждую задачу. Он постоянно превышает базовые результаты существенным отрывом в задачах, таких как AAC, SWRT ASC, SER, AQA, VSC и MNA. Модель устанавливает современные результаты в CochlScene, ClothoAQA и VocalSound, демонстрируя надежные возможности понимания аудио. Высокая производительность Qwen-Audio в различных анализах подчеркивает его эффективность и компетентность в достижении современных результатов в сложных задачах обработки аудио.

Серия Qwen-Audio представляет собой модели аудио-языка большого масштаба с универсальным пониманием разных типов аудио и задач. Разработанные на основе многофункциональной тренировочной структуры, эти модели облегчают обмен знаниями и преодолевают вмешательство от разных текстовых меток в разных наборах данных. Qwen-Audio достигает впечатляющих результатов на стандартных задачах без специфической настройки под каждую задачу, превосходя предыдущие работы. Qwen-Audio-Chat расширяет эти возможности, обеспечивая многоразовые диалоги и поддержку различных сценариев с аудио, демонстрируя надежное соответствие человеческому намерению и облегчая многоязычное взаимодействие.

В дальнейшем Qwen-Audio планирует расширить возможности для разных типов аудио, языков и конкретных задач. Усовершенствование многофункциональной структуры или исследование альтернативных методов обмена знаниями может решить проблемы вмешательства при совместном обучении. Исследование специфической настройки под задачу может улучшить производительность. Постоянные обновления на основе новых стандартов, наборов данных и отзывов пользователей направлены на улучшение универсального понимания аудио. Qwen-Audio-Chat совершенствуется с целью соответствия человеческому намерению, поддержки многоязычных взаимодействий и облегчения динамических многоразовых диалогов.