Stability AI представляет Stable Audio новая модель искусственного интеллекта, способная генерировать аудиофрагменты по текстовым подсказкам.
Stability AI представляет Stable Audio новая модель искусственного интеллекта, способная генерировать аудиофрагменты по текстовым подсказкам.' Translated 'Stability AI presents Stable Audio, a new artificial intelligence model capable of generating audio fragments based on text prompts.
Stability AI представила новаторскую технологию, Stable Audio, совершив значительный прорыв в области аудиогенерации. Это инновационное решение решает проблему создания пользовательских аудиофрагментов на основе простых текстовых запросов. В то время как Stability AI стала известной благодаря своей технологии генерации изображений из текста, Stable Diffusion, она теперь расширила свои возможности на музыку и звук. Это развитие произошло после успешного вхождения на рынок композиции изображений с помощью базовой модели SDXL для Stable Diffusion.
До сих пор генерация базовых аудиодорожек была возможна с помощью техник “символьной генерации”, часто включающих файлы MIDI. Однако Stable Audio преодолевает это, позволяя пользователям создавать совершенно новые музыкальные композиции, освобождаясь от ограничений повторяющихся нот, обычно связанных с MIDI и символьной генерацией. Это достижение объясняется прямым взаимодействием модели с исходными аудиосэмплами, что приводит к высокому качеству выходных данных. Обучение модели, включающее более 800 000 лицензированных музыкальных произведений из библиотеки AudioSparks, способствует ее надежной работе. Этот богатый набор данных обеспечивает аудио высокого качества и предоставляет всестороннюю метадату, являющуюся важным фактором для текстовых моделей.
В отличие от моделей генерации изображений, которые могут имитировать стиль конкретных художников, Stable Audio не пытается подражать таким иконическим группам, как The Beatles. Этот сознательный выбор основан на понимании того, что музыканты стремятся отправиться в творческое путешествие без жестких стилистических ограничений. Вместо этого Stable Audio дает возможность пользователям исследовать свои уникальные музыкальные выражения.
- Знакомьтесь с DiffBIR подходом искусственного интеллекта, который решает проблему восстановления изображений для незрячих с использованием предварительно обученных моделей диффузии текста в изображение.
- Повышение эффективности в Vision Transformers как разреженные мобильные Vision MoE превосходят плотные аналоги в ресурсоограниченных приложениях
- Машинное обучение, иллюстрированное Инкрементное обучение
Модель Stable Audio, диффузионная модель с примерно 1,2 миллиарда параметров, соперничает с оригинальной моделью Stable Diffusion для генерации изображений. Текстовые запросы, неотъемлемые для генерации аудио, были тщательно разработаны и обучены Stability AI с использованием методики Contrastive Language Audio Pretraining (CLAP). Чтобы помочь пользователям в создании эффективных запросов, Stability AI выпускает руководство по запросам одновременно с запуском Stable Audio.
Stable Audio будет доступно в бесплатной версии и Pro-плане по цене 12 долларов в месяц. Бесплатная версия позволяет создавать до 20 аудиозаписей в месяц, каждая продолжительностью до 20 секунд. В отличие от этого, Pro-версия повышает эти ограничения, позволяя создавать 500 аудиозаписей и увеличивая продолжительность треков до 90 секунд.
В заключение, выпуск Stable Audio от Stability AI возвещает о наступлении новой эры в технологии аудиогенерации. Компания предоставила безупречную платформу для преобразования текстовых запросов в оригинальные аудиофрагменты, используя передовые методы искусственного интеллекта. Это нововведение расширяет горизонты творческого выражения и демонстрирует потенциал AI-приводимых решений для музыки и аудиопроизводства. С доступной ценовой политикой Stable Audio готова стать ценным инструментом для начинающих и профессиональных создателей аудио.