Как мы научили Google Translate распознавать омонимы

Как мы научили Google Translate распознавать омонимы секреты успеха

Вам нравится бас?

Ваш ответ на этот вопрос, скорее всего, зависит от того, вы думаете о морепродуктах или о музыке. Это потому, что “бас” и “бас” являются гомонимами – двумя (или более) словами с одинаковым написанием или произношением, но с разными значениями. Когда вы сталкиваетесь с гомонимом, таким как “бас”, вероятно, вы используете контекстные подсказки, чтобы понять вопрос и определить подходящий ответ. И то же самое делает Google Translate. Благодаря продвинутому машинному обучению, Translate может разбирать контекст и различать различные гомонимы. Однако для достижения этого результата потребовалось много работы.

В начальные дни Google Translate переводы были очень буквальными и дословными. Это было потому, что Translate изначально использовал статистический подход для создания своих результатов, говорит инженер Google Translate Апу Шах. И это не было идеальным для понимания языка, такого как гомонимы. Например, предположим, вы хотите перевести слово “VoAGI” с английского на испанский. Используя статистический подход, Translate будет считать, сколько раз в публично доступных переводных данных, например, из онлайн-словарей, появляется испанское слово, имеющее значение “VoAGI”. Затем он основывает ваш результат на наиболее распространенном варианте. Таким образом, даже если вы хотите сказать “el médium”, потому что говорите о фокуснике, Translate мог предложить слово, означающее что-то среднего размера – “medio”, если это слово встречалось чаще. “Translate был действительно ограничен доступными данными”, говорит Апу. “И он не очень хорошо понимал семантику и контекст”.

Сегодня Google Translate поддерживает 133 языка – когда он был запущен в 2006 году, это число было ближе к 60. По мере увеличения числа поддерживаемых языков, улучшилось и качество перевода, говорит директор по инженерии Google Макдафф Хьюз, который работает на этой должности уже почти 11 лет и руководил крупной перестройкой продукта в 2016 году в сторону системы машинного перевода, основанной на нейронных сетях. Этот переход в конечном итоге привел к более точным и контекстным переводам, которые мы получаем сегодня (как в нашем примере с “бас” против “бас”).

Скриншот сайта Google Translate, на котором продукт переводит два предложения с английского на испанский. Первое гласит: «Я пошел на рыбалку и поймал большого баса». Второе гласит: «Я пошел в гитарный магазин и купил большой бас». В поле рядом с этим предложением оба предложения написаны на испанском языке, показывая разные слова для «баса».

Но даже после перехода на систему на основе нейронных сетей было еще место для улучшений. “Мы обнаружили, что Translate может создавать впечатляюще естественно звучащие тексты, но иногда с ошибками”, – говорит Макдафф. “Он может звучать или выглядеть грамматически правильно, использовать высокий уровень словаря и правильную капитализацию и пунктуацию, создавая ощущение достоверности, – но он все равно может быть неправильным”.

Поэтому команда сосредоточилась на обучении нейронной сети становиться все более точной. “Модели, которые мы используем сегодня, втрое или вчетверо больше, чем те, с которыми мы первоначально запустились, и они работают быстрее”, – говорит Макдафф. Команда обучает модель, показывая ей примеры переведенных материалов, что помогает научить ее представлять язык. Это позволяет Translate давать более тонкие результаты. “Мы не просто стремимся к представлению слово в слово”, – говорит Апу. “Мы ищем контекст. Вы участвовали в гонке? Ваша программа работает? Вы использовали ее до упора?”

Иногда для системы перевода просто недостаточно контекста, чтобы выбрать правильное значение – как в вышеупомянутом примере с “бас”. Начиная с сегодняшнего дня, Translate обнаруживает такие случаи и позволяет вам вручную выбрать нужное значение. Это стало возможно благодаря нашему последнему эксперименту с генеративным искусственным интеллектом, через Search Labs. Если вы включили Search Generative Experience (SGE) в США и попросите Search перевести фразу с английского на испанский язык, в которой некоторые слова могут иметь более одного возможного значения, вы увидите эти термины подчеркнутыми. Просто нажмите на эти подчеркнутые слова, и вы сможете указать конкретное значение, отражающее то, что вы хотите сказать. Этот вариант также может появиться, когда вам нужно указать пол для определенного слова.

Связанная статья

Связанная статья

Generative AI в Se…

Generative AI в Search, или Search Generative Experience (SGE), расширяется по всему миру и добавляет четыре новых языка.

Смотреть больше

Вне SGE, если вы вводите одноименные слова без контекста в браузере или произносите их вслух при использовании приложения Translate, алгоритм оценивает все возможные результаты, а затем предлагает варианты, чтобы прояснить, что вы имеете в виду. Например, варианты перевода для слова “bat” включают животное, снаряжение и действие.

Если вы написали или сказали целую фразу, которая включает одноименное слово, алгоритм анализирует фразу в контексте, что позволяет более точно отразить, как вы используете одноименное слово, чем если бы он просто полагался на статистику.

“Мы также выполнили большую работу по курированию данных”, – говорит Макдуфф. Google сотрудничает с поставщиками словарей и сторонними переводчиками, которые собирают слова и фразы на разных языках, а также команда изучает общедоступные базы данных, чтобы лучше понять, как создавать новые функции в Translate. “Мы также обучили языковую модель распознавать разницу между переводами высокого и низкого качества”, – говорит Макдуфф. Опция “внести вклад” также дает пользователям Google Translate возможность помочь с переводами или предлагать исправления.

Translate будет все лучше и лучше справляться с одноименными словами и другими переводами, требующими контекста, со временем, и команда считает важным быть гибкими, чтобы это сделать. “ИИ развивается, а также повышается мощность компьютеров, но язык также развивается”, – говорит Апу. Слова постоянно приобретают новые значения и употребления – например, “slay” или “cancel”. Работа удерживает команду в тонусе, но их основная цель остается неизменной.

“Наши видение будущего предусматривает обеспечение очень свободного общения между людьми”, – говорит Апу. “Мы хотим убрать все барьеры в коммуникации, которые мы можем, чтобы каждый мог разговаривать с другим человеком, независимо от языка, на котором они говорят”. Или от того, о какой басовой речи идет.