Амр Нур-Эльдин, вице-президент по технологиям в LXT – серия интервью
Амр Нур-Эльдин, вице-президент по технологиям в LXT - серия интервью' -> 'Амр Нур-Эльдин технологии в LXT - серия интервью
Амр Нур-Эльдин – вице-президент технологий в компании LXT. Амр – доктор наук, исследователь в области обработки речи/звука и машинного обучения в контексте автоматического распознавания речи (ASR), особое внимание и практический опыт в последние годы уделяется техникам глубокого обучения для поточного распознавания речи.
LXT – ведущая компания в области искусственного интеллекта, обучающая данные для разработки интеллектуальных технологий для мировых организаций. В партнерстве с международной сетью участников, LXT собирает и аннотирует данные в разных модальностях с необходимой для предприятия скоростью, масштабом и гибкостью. Их мировое экспертное знание охватывает более 145 стран и более 1000 языковых помещений.
Вы изучали докторскую программу по сигнальной обработке в университете МакГилла, что вас изначально заинтересовало в этой области?
Я всегда хотел изучать инженерию, мне нравились естественные науки в целом, но я больше всего привлекался к математике и физике. Всегда пытался понять, как работает природа и как применить это понимание для создания технологий. После окончания школы у меня была возможность выбрать медицину или другие профессии, но я выбрал именно инженерию, потому что она представляла для меня идеальное сочетание теории и применения в двух наиболее близких мне областях: математике и физике. И как только я выбрал это, открылись множество потенциальных путей – механика, гражданская инженерия и так далее. Но я выбрал именно электротехнику, потому что она наиболее близка и, как мне кажется, самая сложная из всех областей математики и физики, с которыми я всегда испытывал трудности, но именно поэтому мне они больше нравились, а также она является фундаментом современных технологий, которые всегда меня вдохновляли.
- ИИ и энергоэффективность Устойчивая революция
- Как искусственный интеллект будет дополнять медицинских биллеров в будущем?
- BrainChip представляет платформу второго поколения Akida для технологического прогресса Edge AI
В области электротехники можно выбрать различные специализации, которые обычно сводятся к двум направлениям: телекоммуникации и обработка сигналов, а также энергетика и электротехника. Когда пришло время выбора между этими двумя направлениями, я выбрал телекоммуникации и обработку сигналов, потому что оно ближе к тому, как мы описываем природу через физику и уравнения. Здесь речь идет о сигналах, будь то звук, изображения или видео; понимание того, как мы общаемся и что воспринимают наши чувства, и как математически представить эту информацию таким образом, чтобы использовать это знание для создания и улучшения технологий.
Можете ли рассказать о своем исследовании в университете МакГилла в области информационной теории искусственного расширения пропускной способности (BWE)?
После окончания бакалавриата я хотел продолжать академическое изучение обработки сигналов. После года изучения фотоники в рамках магистратуры по физике, я решил вернуться в инженерию и получить магистратуру в области обработки звука и речи, с акцентом на распознавание речи. Когда пришло время выбирать программу докторского обучения, я хотел немного расширить свою область и изучить общую обработку звука и речи, а также плотно связанные с ними области машинного обучения и информационной теории, а не только сосредоточиться на приложении распознавания речи.
Целью моей докторской программы было расширение пропускной способности узкополосной речи. Узкополосная речь относится к обычной телефонной речи. Спектр речи расширяется до примерно 20 килогерц, но большая часть информации сосредоточена только в диапазоне до 4 килогерц. Расширение пропускной способности – это искусственное расширение содержимого речи сверх 3,4 килогерца, которое является верхней границей узкополосной телефонной связи, до 8 килогерц и более. Чтобы правильно восстановить отсутствующее высокочастотное содержимое на основе только доступного узкополосного содержимого, необходимо сначала количественно оценить взаимную информацию между содержимым речи в двух полосах частот, а затем использовать эту информацию для обучения модели, которая будет обучаться на основе этой общей информации; модель, которая после обучения сможет генерировать высокочастотное содержимое на основе только узкополосной речи и того, что модель изучила о взаимосвязи между этой доступной узкополосной речью и отсутствующим высокочастотным содержимым. Количественное оценивание и представление этой общей “взаимной информации” – это, где на помощь приходит информационная теория. Информационная теория изучает количественную оценку и представление информации в любом сигнале. Исследование, над которым я работал, заключалось в использовании информационной теории для улучшения искусственного расширения пропускной способности речи. Таким образом, моя докторская программа была скорее междисциплинарной исследовательской деятельностью, в которой я объединил обработку сигналов с информационной теорией и машинным обучением.
Вы были главным ученым по обработке речи в компании Nuance Communications, которая теперь является частью Microsoft, на протяжении более 16 лет. Какие были ваши основные выводы из этого опыта?
С моей точки зрения, самая важная польза заключалась в том, что я всегда работал с передовыми техниками обработки сигналов и машинного обучения и применял эту технологию к реальным приложениям. У меня была возможность применять эти методы в продуктах разговорного искусственного интеллекта в различных областях. Эти области варьировались от предприятий до здравоохранения, автомобильной и мобильной отраслей и других. Некоторые конкретные применения включали виртуальных помощников, интерактивные голосовые ответы, транскрипцию голосовых сообщений в текст и другие случаи, где правильное представление и транскрипция являются основными, например, в здравоохранении при взаимодействии врача с пациентом. За все эти 16 лет, мне посчастливилось собственными глазами стать свидетелем и быть частью эволюции разговорного искусственного интеллекта – от дней статистического моделирования с использованием скрытых марковских моделей, через постепенное завоевание глубокого обучения и до сегодняшнего доминирования глубокого обучения во всех аспектах искусственного интеллекта, включая генеративный и прогностический или дискриминативный искусственный интеллект. Еще одним важным уроком из этого опыта является ключевая роль данных, их количества и качества, как основного фактора возможностей и эффективности моделей искусственного интеллекта.
Вы опубликовали десятки статей, включая такие известные издания, как IEEE. По вашему мнению, какая из ваших статей является наиболее революционной, и почему она важна?
Наиболее влиятельной статьей по количеству цитирований, согласно Google Scholar, является статья 2008 года под названием «Расширение полосы пропускания речи с использованием мел-частотно-кепстральных коэффициентов, основанных на частоте мела». В общих чертах, эта статья фокусируется на том, как восстановить речевое содержание с использованием признакового представления, широко используемого в области автоматического распознавания речи (ASR), таких как мел-частотно-кепстральные коэффициенты.
Однако, наиболее инновационной на мой взгляд является статья с вторым наибольшим количеством цитирований, статья 2011 года под названием «Запись на основе памяти гауссовой смесевой модели для расширения полосы пропускания речи с низкой полосой пропускания». В этой работе я предложил новую статистическую модель, которая включает временную информацию в речь. Преимущество этой техники заключается в том, что она позволяет моделировать долгосрочную информацию в речи с минимальной дополнительной сложностью и способствует генерации широкополосной речи в режиме потоковой передачи или в реальном времени.
В июне 2023 года вы были наняты на должность вице-президента по технологиям в LXT, что привлекло вас в эту должность?
На протяжении моего академического и профессионального опыта до LXT я всегда прямо работал с данными. Фактически, как я уже упоминал ранее, одним из ключевых уроков для меня в работе с речевой наукой и машинным обучением была важная роль данных в жизненном цикле модели искусственного интеллекта. Наличие достаточного объема качественных данных в правильном формате имело и продолжает иметь решающее значение для успешного применения современных глубоко обученных моделей искусственного интеллекта. Поэтому, в то время, когда я находился на стадии своей карьеры, когда искал окружение, похожее на стартап, где я мог бы учиться, расширить свои навыки и в полной мере использовать свой опыт работы с речью и искусственным интеллектом, чтобы достичь наибольшего влияния, мне посчастливилось получить возможность присоединиться к LXT. Это было идеальное сочетание. LXT не только является поставщиком данных для искусственного интеллекта, который стремительно и последовательно растет, но я также видел в нем идеальную стадию для развития кобер-ноухау в области искусственного интеллекта, а также в размере и диверсификации клиентской базы и типов данных, связанных с искусственным интеллектом. Я с нетерпением ждал возможности присоединиться и помочь в этом пути роста, чтобы иметь большое влияние, привнося с собой опыт конечного пользователя данных после многолетней работы в качестве ученого-исследователя данных искусственного интеллекта.
Как вы проводите свой средний рабочий день в LXT?
Мой средний рабочий день начинается с ознакомления с последними исследованиями по разным темам, которые в последнее время сосредоточены вокруг генеративного искусственного интеллекта и того, как мы можем применить его для потребностей наших клиентов. К счастью, у меня есть отличная команда, которая очень хорошо справляется с созданием и индивидуальным адаптированием решений под специфические потребности наших клиентов в области искусственного интеллекта. Поэтому я тесно сотрудничаю с ними для определения повестки дня.
Кроме того, конечно, есть стратегическое ежегодное и квартальное планирование а также разбиение стратегических задач на отдельные задачи команды и следить за развитием в соответствии с этими планами. Что касается разработки функционала, которую мы делаем, у нас обычно есть два технологических направления. Одно – это убедиться, что у нас есть необходимые компоненты, чтобы достичь наилучших результатов на текущих и новых проектах. Другое направление – улучшение и расширение наших возможностей в области технологий, с акцентом на внедрение машинного обучения.
Можете ли вы рассказать о типах алгоритмов машинного обучения, над которыми вы работаете в LXT?
Решения на основе искусственного интеллекта преобразуют бизнесы во всех отраслях, и мы, в LXT, гордимся тем, что предоставляем высококачественные данные для обучения алгоритмов машинного обучения, которые их поддерживают. Наши клиенты работают над широким спектром приложений, включая дополненную и виртуальную реальность, компьютерное зрение, разговорный искусственный интеллект, генеративный искусственный интеллект, повышение релевантности поиска, речь и обработка естественного языка (NLP), и многие другие. Мы стремимся обеспечить машинные алгоритмы и технологии будущего через создание и улучшение данных на всех языках, культурах и точках зрения.
Внутренне мы также внедряем машинное обучение для улучшения и оптимизации внутренних процессов, начиная от автоматизации проверки качества данных, заканчивая организацией модели разметки с человеком в петле для всех модальностей данных, над которыми мы работаем.
Обработка речи и звука быстро приближается к совершенству в случае английского языка, и, в частности – белого мужчины. Как долго по вашей оценке потребуется, чтобы достичь равенства возможностей для всех языков, гендеров и этнических групп?
Это сложный вопрос, и он зависит от ряда факторов, включая экономические, политические, социальные и технологические аспекты, среди прочих. Но понятно, что превалирование английского языка является тем, что привело ИИ к текущему состоянию. Таким образом, достижение равных условий зависит от скорости, с которой представление данных различных этнических групп и населений растет онлайн, и скорость этого роста будет определять, когда мы достигнем этой цели.
Тем не менее, LXT и подобные компании могут сыграть большую роль в движении нас к более равным условиям. Пока данные на менее представленные языки, гендеры и этнические группы будет сложно получить или они не будут доступны вообще, перемены будут происходить медленнее. Но мы стараемся внести свой вклад. Покрывая более 1000 языковых локалей и имея опыт работы в 145 странах, LXT помогает сделать больше языковых данных доступными.
Какова ваша визия того, как LXT может ускорить усилия по развитию ИИ для разных клиентов?
Наша цель в LXT – предоставить решения в области данных, которые обеспечат эффективное, точное и более быстрое развитие ИИ. За 12 лет работы в сфере данных ИИ мы накопили не только обширное понимание потребностей клиентов по всем аспектам данных, но и непрерывно совершенствовали наши процессы, чтобы предоставлять данные высочайшего качества с наибольшей скоростью и по лучшим ценам. В результате нашего стойкого стремления предоставлять клиентам оптимальное сочетание качества данных ИИ, эффективности и ценообразования, мы стали надежным партнером по данным ИИ, что подтверждают наши постоянные клиенты, которые возвращаются к LXT для своих всё растущих и развивающихся потребностей в данных ИИ. Моя визия заключается в укреплении, улучшении и расширении этого “MO” LXT как для модальностей данных, над которыми мы работаем, так и для всех видов развития ИИ, которые мы обслуживаем, включая порождающий ИИ. Достижение этой цели связано с стратегическим расширением нашей собственной машинного обучения и возможностей в области науки о данных, как в технологическом, так и в ресурсном аспекте.
Благодарю за отличное интервью, читатели, желающие узнать больше, могут посетить LXT.