Новые исследования позволяют легко синхронизировать текст с речью | Google
Новые исследования упрощают синхронизацию текста с речью | Google
Преодоление несоответствия длины последовательности без явного указания.
ТР;ДС
Обучение тексто-речевой (мультимодальной) модели имеет свои проблемы. Учитывая, что частота дискретизации аудио высокая, длина последовательности для аудио значительно больше соответствующего текста. Чтобы обучать и текст, и аудио одновременно, нам нужно преодолеть это расхождение (лениво, не создавая явно аннотированных обучающих данных). Эта статья решает эту проблему.
Аннотация
В прошлом году произошел поразительный прогресс в создании изображений по текстовому подсказыванию на основе идеи кросс-модального представления, в котором текст и изображения представлены совместно.
В автоматическом распознавании речи (ASR) эта идея нашла применение в виде совместных кодировщиков речи и текста, которые могут масштабироваться до емкости очень больших параметрических моделей, обучаясь на непарных речи и тексте. Хотя эти методы обещают хорошее будущее, они требовали особой обработки несоответствия длины последовательности, присущего речи и тексту, либо с помощью эвристик повышения частоты выборки, либо с использованием явной модели выравнивания.
В этой работе мы предлагаем доказательства того, что совместные кодировщики речи и текста естественным образом достигают согласованных представлений между модальностями, игнорируя длину последовательности, и аргументируем, что потери согласованности могут простить различия в длине и просто предположить наилучшее выравнивание. Мы показываем, что такая потеря улучшает частоту ошибок восстановления слов (WER) как в системе с большим количеством параметров, работающей на одном языке, так и в многоязычной системе.
- Исследователи из Корнельского университета представляют метод квантования с использованием несогласованной обработки (QuIP) новый метод искусственного интеллекта, основанный на представлении о том, что квантование выгодно при использовании несогласованных матриц весов и матриц Гессе.
- Исследователи из Стэнфорда расшифровали код естественного зрения, поскольку новая модель раскрывает, как глаза декодируют визуальную сцену

Теория решения
Обучите большой кодировщик отдельно на обеих модальностях (здесь аудио и текст). Таким образом, каждая модальность предоставляет несопряженный пример, и метамодель учится отображать сопряженные примеры во временном измерении. Это представление может обеспечить современную производительность в модальности изображения+текста. Однако оно не работает так хорошо в комбинации аудио + текст.
Распознавание речи представляет особую сложность двух модальностей последовательностей, одной из которых…