Как бизнесу улучшить точность многоязычных классификаторов продуктов? В этой статье по искусственному интеллекту предлагается LAMM подход активного обучения, направленный на укрепление точности классификации в языках с ограниченными данными обучения.

Как улучшить точность многоязычных классификаторов продуктов? В этой статье предлагается LAMM подход активного обучения для укрепления точности классификации в языках с ограниченными данными обучения.

Пользуясь общими представлениями, характерными для различных языков, известно, что кросс-языковое обучение повышает точность моделей NLP на языках с ограниченными ресурсами, у которых ограниченный объем данных для обучения модели. Однако существует значительное расхождение в точности между языками с высокими ресурсами и языками с низкими ресурсами, и это связано с относительной нехваткой данных для предварительного обучения с LRL, даже для современных моделей (SOTA). Цели по точности на языковом уровне часто устанавливаются в профессиональных ситуациях. В таких случаях полезны методы, такие как нейронный машинный перевод, транслитерация и метка распространения на схожих данных, поскольку они могут использоваться для синтетического улучшения существующих данных для обучения.

Эти методы могут использоваться для увеличения объема и качества данных для обучения без необходимости дорогостоящей ручной разметки. В результате ограничений машинного перевода может потребоваться догнать коммерческие цели, даже если перевод обычно улучшает точность LRL.

Команда исследователей из Amazon предлагает подход к повышению точности языков с низкими ресурсами (LRL) путем применения активного обучения для выборочного сбора помеченных данных. Активное обучение для мультиязычных данных уже изучалось, хотя большинство исследований было сосредоточено на обучении модели для одного языка. В этом контексте они работают над совершенствованием одной модели, которая может эффективно осуществлять перевод между языками. Метод Language Aware Active Learning for Multilingual Models (LAMM) аналогичен работе, которая показала, что активное обучение может улучшить производительность модели на разных языках при использовании одной модели. К сожалению, этот подход не предлагает способа специально нацеливаться и повышать точность LRL. В результате настоящих современных алгоритмов активного обучения требуются ручные разметки в ситуациях, когда необходимо достичь языковых целей. Чтобы повысить точность LRL, не негативно влияя на производительность HRL, они представляют активное обучение на основе стратегии сбора помеченных данных. Предложенная стратегия LAMM повышает вероятность достижения целей точности для всех соответствующих языков.

Исследователи формулируют LAMM как MOP с несколькими целями, которые необходимо достичь. Задача состоит в выборе примеров непомеченных данных, которые:

  • Неоднозначны (модель имеет небольшую уверенность в своих результатах)
  • Из семейств языков, для которых производительность классификатора может быть лучше поставленных целей.  

Исследователи Amazon сравнивают производительность LAMM с двумя показателями на четырех мультиязычных наборах данных для классификации, используя типичную настройку активного обучения на основе пула. Два примера общедоступных наборов данных – Amazon Reviews и MLDoc. Два мультиязычных набора данных для классификации продуктов используются внутренне Amazon. Вот стандартные процедуры:

  • Least Confidence (LC) собирает наиболее неопределенные образцы с высокой энтропией.
  • Equal Allocation (EC) собирает образцы с высокой энтропией, чтобы заполнить бюджет пометок для каждого языка, и бюджет пометок равномерно делится между языками.

Выяснилось, что LAMM превосходит конкурентов на всех LRL, при этом незначительно уступая на HRL. Процент пометок HRL сокращается на 62,1% при использовании LAMM, хотя точность AUC снижается всего на 1,2% по сравнению с LC. Используя четыре разных набора данных для классификации продуктов, два общедоступных и два внутренних, они показывают, что LAMM может увеличить производительность LRL на 4–11% по сравнению с надежными базовыми значениями.