Знакомьтесь с Audiobox новой исследовательской моделью Meta AI для генерации аудио

Познакомьтесь с Audiobox – инновационной моделью Meta AI для создания аудио

Аудио играет важную роль в сфере медиа и развлечений. Оно влияет на все, начиная от фильмов и подкастов, заканчивая аудиокнигами и видеоиграми. Однако, создание качественного звука требует обширных звуковых библиотек и глубокого экспертизы в данной области.

В результате исследователи Меты разработали новую модель ИИ, называемую Audiobox, которая может генерировать голоса и звуковые эффекты, используя комбинацию голосовых входов и текстовых подсказок на естественном языке – что делает создание пользовательского аудио разного рода очень простым. Он объединяет возможности генерации и редактирования речи, звуковых эффектов и пейзажей.

Исследователи подчеркивают, что это большой шаг в соединении возможностей генерации и редактирования различных аудио-элементов. Audiobox может генерировать голоса и звуковые эффекты, используя комбинацию голосовых входов и текстовых подсказок на естественном языке – что делает создание пользовательского аудио разного рода очень простым.

Audiobox был создан в качестве преемника Voicebox, и он улучшает возможности своего предшественника и вводит единообразную платформу, расширяющую возможности генерации и редактирования различных элементов аудио.

Преимущество Audiobox заключается в его способности производить голоса и звуковые эффекты, используя комбинацию голосовых входов с текстовыми подсказками на естественном языке. Этот метод упрощает процесс создания уникального аудио для разных сценариев использования. Например, пользователи могут отправить текстовое сообщение Audiobox, описывающее желаемый звук или тип речи, и Audiobox автоматически создаст соответствующее аудио.

Кроме того, Audiobox позволяет пользователям использовать естественноязыковые подсказки для описания стиля речи, который они хотят получить. Это является преимуществом адаптации Audiobox. Audiobox также позволяет пользователям настраивать звуковые параметры с помощью текстовых подсказок. Например, достаточно ввести подробную текстовую подсказку, чтобы создать спокойное аудиопространство с журчащей рекой и щебетом птиц, и Audiobox воплотит это видение.

С помощью Audiobox пользователи могут изменить голоса так, чтобы они звучали, будто они из другой обстановки. Это достигается путем слияния текстовой подсказки со звуковым голосовым входом, что позволяет пользователям создавать синтезированную речь в соответствии с их предпочтениями.

Исследователи протестировали Audiobox на различных моделях, таких как AudioLDM2, VoiceLDM и TANGO, с точки зрения качества и релевантности, и обнаружили, что Audiobox превосходит их. Они выяснили, что он превосходит Voicebox по сходству стиля более чем на 30 процентов в различных стилях речи.

Исследователи заявляют, что Audiobox снизит барьер доступности для создания аудио и сделает его простым для любого, кто хочет стать создателем аудиоконтента.

Исследователи хотят перейти от создания специализированных моделей генерации аудио, которые могут генерировать только один тип аудио, к созданию универсальных моделей генерации аудио, которые могут создавать любое аудио.

В заключение, Audiobox – это значительная модель в развитии аудиотехнологии. Его интуитивный интерфейс и мощные возможности переопределяют наше отношение к созданию аудио и открывают новые возможности для людей, профессионалов и энтузиастов, чтобы формировать и распространять свое уникальное звуковое видение.

Статья Meet Audiobox: A New Meta AI’s Foundation Research Model for Audio Generation впервые появилась на MarkTechPost.