Новые исследования позволяют легко синхронизировать текст с речью | Google

Новые исследования упрощают синхронизацию текста с речью | Google

Преодоление несоответствия длины последовательности без явного указания.

ТР;ДС

Обучение тексто-речевой (мультимодальной) модели имеет свои проблемы. Учитывая, что частота дискретизации аудио высокая, длина последовательности для аудио значительно больше соответствующего текста. Чтобы обучать и текст, и аудио одновременно, нам нужно преодолеть это расхождение (лениво, не создавая явно аннотированных обучающих данных). Эта статья решает эту проблему.

Аннотация

В прошлом году произошел поразительный прогресс в создании изображений по текстовому подсказыванию на основе идеи кросс-модального представления, в котором текст и изображения представлены совместно.

В автоматическом распознавании речи (ASR) эта идея нашла применение в виде совместных кодировщиков речи и текста, которые могут масштабироваться до емкости очень больших параметрических моделей, обучаясь на непарных речи и тексте. Хотя эти методы обещают хорошее будущее, они требовали особой обработки несоответствия длины последовательности, присущего речи и тексту, либо с помощью эвристик повышения частоты выборки, либо с использованием явной модели выравнивания.

В этой работе мы предлагаем доказательства того, что совместные кодировщики речи и текста естественным образом достигают согласованных представлений между модальностями, игнорируя длину последовательности, и аргументируем, что потери согласованности могут простить различия в длине и просто предположить наилучшее выравнивание. Мы показываем, что такая потеря улучшает частоту ошибок восстановления слов (WER) как в системе с большим количеством параметров, работающей на одном языке, так и в многоязычной системе.

wВизуализация расстояний вложений (a) и наилучшего выравнивания (b) между аудио-вложением на горизонтальной оси и соответствующим текстовым вложением на вертикальной оси. Темные точки на (a) представляют собой пары аудио- и текстовых кадров с близкими вложениями, а желтые точки на (b) представляют собой пары восстановленного наилучшего выравнивания

Теория решения

Обучите большой кодировщик отдельно на обеих модальностях (здесь аудио и текст). Таким образом, каждая модальность предоставляет несопряженный пример, и метамодель учится отображать сопряженные примеры во временном измерении. Это представление может обеспечить современную производительность в модальности изображения+текста. Однако оно не работает так хорошо в комбинации аудио + текст.

Распознавание речи представляет особую сложность двух модальностей последовательностей, одной из которых…