Google AI представляет Spectron первую модель AI на основе распознавания речи, обученную от начала до конца для прямой обработки спектрограмм как входных, так и выходных данных.
Google AI представляет Spectron первую полностью обученную модель искусственного интеллекта на основе распознавания речи, способную прямо обрабатывать спектрограммы как входные, так и выходные данные.
Непрерывная речь и LLM, отвечающие на вопросы, являются универсальными инструментами, которые могут применяться в широком спектре задач и отраслей, что делает их ценными для повышения производительности, улучшения пользовательских интерфейсов и продвижения исследований и разработок в различных областях. Примерами таких LLM являются GPT-3 и его преемники, которые привлекли значительное внимание своей впечатляющей производительностью в понимании и генерации текста.
Эти LLM, как правило, основаны на глубинных архитектурах обучения. Они предварительно обучены на больших объемах текстовых данных, что позволяет им понимать тонкости человеческого языка и генерировать текст, который контекстно связан и логичен, захватывая статистические паттерны и структуры языка текста.
Команда Google Research и Verily AI представила новую новаторскую модель разговорного языка под названием “Spectron”. Эта модель обрабатывает спектрограммы как входные и выходные данные. Спектрограмма – это визуальное представление спектра частот сигнала по мере их изменения со временем. Данная модель использует промежуточные слои проекции, чтобы использовать аудио возможности предварительно обученного речевого кодировщика. Эта модель не только устраняет неопределенности, которые обычно возникают в кодировщике и декодере, но и делает это без потери достоверности представления.
- Разместите модели машинного обучения, созданные в Amazon SageMaker Canvas, на реальных конечных точках Amazon SageMaker.
- Полезные сенсоры запускают искусственный интеллект в коробке
- Революционизируя машинное обучение использование 3D-обработки в фотонных ускорителях для достижения передового параллелизма и совместимости с вычислениями на периферии
Языковая модель транскрибирует и генерирует продолжения текста, действуя как ‘промежуточная записная книжка’, дополнительно связанная с генерацией звука. Производные от истинного значения содержат богатую, несущую долгосрочную информацию о форме сигнала. Команда использует этот факт для наблюдения за моделью, соответствующую высокоуровневым временным и признаковым дельтам истинного значения с использованием спектрограммной регрессии.
Архитектура модели инициализируется предварительно обученным речевым кодировщиком и предварително обученным языковым декодером. Кодировщик получает речевое предложение в качестве ввода и кодирует его в лингвистические признаки. Признаки действуют как префикс для декодера, и весь кодировщик-декодер оптимизируется для минимизации перекрестной энтропии совместно. Этот метод предоставляет речевую подсказку, закодированную и затем декодированную для получения как текста, так и речевых продолжений.
Исследователи использовали ту же архитектуру для декодирования промежуточного текста и спектрограмм. Это имеет две преимущества. Во-первых, предварительное обучение LM в текстовой области для продолжения подсказки в текстовой области перед синтезом речи. Во-вторых, предсказанный текст служит промежуточным рассуждением, улучшая качество синтезированной речи, аналогично улучшениям в моделях языка на основе текста.
Однако их работа требует много времени и пространства. Для генерации множества кадров спектрограммы требуется много времени. Это делает невозможным генерацию длинных речевых высказываний. Еще одним ограничением является то, что модель не может выполнять процесс декодирования текста и спектрограммы параллельно. В будущем команда сосредоточится на разработке параллельного декодирующего алгоритма.