Google на конференции Interspeech 2023

Google at Interspeech 2023 conference

Опубликовано Кэтрин Армато, менеджер программ, Google

На этой неделе в Дублине, Ирландия, проходит 24-я ежегодная конференция Международной ассоциации речевых коммуникаций (INTERSPEECH 2023), представляющая собой одну из самых масштабных конференций в мире по исследованию и технологии понимания и обработки устной речи. Эксперты в области речевых исследований собираются для участия в устных презентациях и сессиях постеров, а также для создания сотрудничества по всему миру.

Мы рады быть платиновым спонсором INTERSPEECH 2023, где мы представим более 20 научных публикаций и поддержим ряд мастер-классов и специальных сессий. Мы приглашаем всех присутствующих лично посетить стенд исследовательской группы Google, чтобы встретиться с нашими исследователями и принять участие в вопросах и ответах и демонстрациях некоторых из наших последних речевых технологий, которые помогают улучшить доступность и обеспечить удобство в общении для миллиардов пользователей. Кроме того, мы призываем онлайн-участников посетить наш виртуальный стенд в Topia, где вы можете получить актуальную информацию о научных исследованиях и возможностях в Google. Посетите аккаунт @GoogleAI в Twitter, чтобы узнать о деятельности стенда Google (например, демонстрации и сессии вопросов и ответов). Вы также можете узнать больше о научных исследованиях Google, представленных на INTERSPEECH 2023, ниже (выделены жирным шрифтом аффилиации Google).

Правление и оргкомитет

Правление ISCA, председатель технического комитета: Бхувана Рамабхадран

Среди председателей разделов:     Анализ речи и аудиосигналов: Ричард Роуз     Синтез речи и генерация устной речи: Роб Кларк     Специальные разделы: Тара Сайнат

Спутниковые мероприятия

Человек-ориентированное распознавание дикторов VoxCeleb 2023 (VoxSRC-23), организаторы: Арша Награни

Мастер-класс по синтезу речи ISCA (SSW12), выступающий: Роб Кларк

Ключевой доклад – лауреат премии ISCA

Связь между наукой о речи и технологией — сегодня и в будущем. Докладчик: Шрикант Нараянан

Обзорный доклад

Сжатие речи в эпоху искусственного интеллекта. Докладчик: Ян Скоглунд

Статьи специальной сессии

Каскадные кодировщики для настройки моделей ASR на наложенную речь. Ричард Роуз, Оскар Чанг, Оливье Сиоан

TokenSplit: использование дискретных представлений речи для прямого, уточненного и условного разделения и распознавания речи. Хакан Эрдоган, Скотт Уиздом, Xuankai Chang*, Залан Борсош, Марко Таглиасакки, Нил Зегидур, Джон Р. Херши

Статьи

DeePMOS: глубокая оценка среднего уровня речи. Лианг Синюй, Фредрик Кумлин, Кристиан Шюльдт, Сайкат Чаттерджи

O-1: самообучение с использованием оракула и наилучшей гипотезы. Мурал Картик Баскар, Эндрю Розенберг, Бхувана Рамабхадран, Картик Аудхкаси

Повторное исследование эффективного переноса обучения модели речи с использованием методов слияния признаков. Чжоуян Хуо, Ке Чай Сим, Донсеон Хван, Цэндсурен Мункхдалай, Тара Н. Сайнат, Педро Морено

MOS против AB: надежная оценка систем текста в речь с использованием кластеризованных стандартных ошибок. Джошуа Кэмп, Том Кентер, Лев Финкельштейн, Роб Кларк

LanSER: распознавание речевых эмоций с поддержкой модели языка. Тэсик Гонг, Джош Беланик, Кришна Сомандепалли, Арша Награни, Брайан Иофф, Брендан Джоу

Модульная адаптация доменов для потокового ASR на основе Conformer Кьюджия Ли, Бо Ли, Донгсон Хванг, Тара Н. Сайнат, Педро М. Менгибар

Обучение нейронного остаточного подавителя акустического эха для улучшенного ASR Санкаран Панчапагесан, Турадж Закизаде Шабестари, Арун Нараянан

MD3: Многодиалектный набор данных для диалогов Джейкоб Айзенштейн, Винодкумар Прабхакаран, Клара Ривера, Дороттия Демски, Девяни Шарма

Двухрежимный NAM: эффективная инъекция контекста Top-K для конечного ASR Цзелинь Ву, Цендсурен Мунхдалай, Пэт Рондон, Голан Пундак, Кхе Чай Сим, Кристофер Ли

Использование внедрения текста для улучшения распознавания персональных идентификаторов в речи Йохай Блау, Рохан Агравал, Лиор Мадмони, Гэри Ванг, Эндрю Розенберг, Жехуай Чен, Зорик Гехман, Генадий Березкин, Париза Хагани, Бувана Рамабхадран

Как оценить переносимость модели предварительно обученных речевых моделей? Ци-Чин Чен, Чао-Хан Хак Янг*, Бо Ли, Ю Чжан, Наньсинь Чен, Шуо-йин Чанг, Рохит Прабхавалкар, Хун-И Ли, Тара Н. Сайнат

Улучшение совместных речево-текстовых представлений без выравнивания Кэл Пейсер, Жонг Мэн, Кэ Ху, Рохит Прабхавалкар, Эндрю Розенберг, Тара Н. Сайнат, Майкл Пичени, Кюнхюн Чо

Внедрение текста для предсказания капитализации и смены реплик в речевых моделях Шаан Биджвадиа, Шуо-йин Чанг, Вейран Ванг, Жонг Мэн, Хао Чжан, Тара Н. Сайнат

Потоковый Parrotron для преобразования речи-в-речь на устройстве Олег Рыбаков, Фади Биадси, Ся Чжан, Лиян Цзян, Феникс Медоларк, Шивани Агравал

Семантическая сегментация с использованием двунаправленных языковых моделей улучшает длинные ASR В. Ронни Хуанг, Хао Чжан, Шанкар Кумар, Шуо-йин Чанг, Тара Н. Сайнат

Универсальная автоматическая фонетическая транскрипция в Международный фонетический алфавит Чихиро Тагути, Юсуке Сакаи, Париза Хагани, Дэвид Чианг

Смесь экспертных Conformer для потокового многоязычного ASR Кэ Ху, Бо Ли, Тара Н. Сайнат, Ю Чжан, Франсуаза Бофэ

Обратное преобразование спектрограммы в реальном времени на мобильном телефоне Олег Рыбаков, Марко Тальясакки, Юнпэн Ли, Лиян Цзян, Ся Чжан, Фади Биадси

Квантование Conformer на 2 бита для автоматического распознавания речи Олег Рыбаков, Феникс Медоларк, Шаоьинь Дин, Дэвид Цю, Цзянь Ли, Дэвид Рим, Яньчжан Хэ

LibriTTS-R: Восстановленный многоязычный корпус преобразования текста в речь Юма Коидзуми, Хейга Зен, Сигеки Карита, Ифань Дин, Кохей Ятабэ, Нобуюки Мориока, Мишель Баккани, Ю Чжан, Вэй Хан, Анкур Бапна

PronScribe: Высокоточная мультимодальная фонемная транскрипция из речи и текста Ян Ю, Мэтью Перес*, Анкур Бапна, Фади Хайк, Сиамак Тазари, Ю Чжан

Обучение представлений речи, осознающих метки, для идентификации языка Шикхар Вашишт, Шикхар Бхарадвадж, Срирам Ганапати, Анкур Бапна, Мин Ма, Вэй Хан, Вера Аксельрод, Парта Талукдар


* Работа выполнена во время работы в Google