Line Open-Source представляет jапонскую модель языка japanese-large-lm с 3,6 миллиарда параметров.

Line Open-Source представляет японскую модель языка japanese-large-lm с 3,6 млрд параметров.

С ноября 2020 года LINE начал трансформационное путешествие исследования и разработки для создания и использования мощи продвинутой модели языка большого масштаба, специально разработанной для японского языка. Как значительный этап в этом путешествии, разработочное подразделение Massive LM LINE объявило о выпуске своих японских языковых моделей “Японский-большая-модель-языка” в качестве программного обеспечения с открытым исходным кодом (OSS). Этот выпуск готов значительно повлиять как на исследовательское сообщество, так и на бизнесы, стремящиеся использовать передовые языковые модели.

Эти языковые модели представлены в двух вариантах – модель с 3,6 миллиардами (3,6B) параметров и модель с 1,7 миллиардами (1,7B) параметров, которые называются соответственно моделью 3,6B и моделью 1,7B. Представляя эти модели и делая доступными все их всесторонние понимания по построению языковой модели, LINE стремится предоставить представление о тонкостях своего подхода и внести вклад в развитие этой области.

Модели 1,7B и 3,6B доступны через HuggingFace Hub (модель 1,7B, модель 3,6B), предлагая безупречную интеграцию в различные проекты с помощью популярной библиотеки transformers. Распространение этих моделей на условиях лицензии Apache License 2.0 обеспечивает широкий спектр пользователей, включая исследователей и коммерческие организации, которые могут использовать их возможности для разнообразных приложений.

Основным моментом в разработке любой высокопроизводительной языковой модели является использование обширных и качественных наборов данных для обучения. LINE воспользовалась своим собственным японским корпусом веб-страниц – репозиторием, обогащенным разнообразными текстовыми данными, чтобы достичь этой цели. Однако проблема веб-содержимого состоит в его неизбежном шуме, включая исходный код и неяпонские предложения. Решением LINE стало использование тщательных процессов фильтрации, основанных на библиотеке HojiChar OSS. Эти процессы сыграли важную роль в создании крупномасштабного набора данных высокого качества, являющегося основой прочности моделей.

Эффективность в обучении модели была ключевым фактором, и LINE справилась с задачей, реализуя инновационные техники, такие как 3D-параллелизм и активационная точка контроля. Эти достижения облегчили эффективное усвоение объемных данных, эффективно расширяя границы вычислительных возможностей. Удивительно, модель 1,7B была разработана всего за 4000 часов на графическом процессоре A100 80GB – это свидетельство эффективности их подхода к обучению.

Особенностью развития этой японской языковой модели является отличие от модели HyperCLOVA. Созданная в рамках отдельной линии разработки, тщательно контролируемой специальным разработочным подразделением Massive LM LINE, эта модель является свидетельством приверженности LINE созданию исключительных предварительно обученных моделей для японского языка. Их главная цель остается неизменной – интеграция понимания и уроков, полученных из их обширного опыта работы с языковыми моделями большого масштаба.

LINE изучила оценки запутанности (PPL) и показатели точности для задач вопросно-ответной системы и понимания чтения, чтобы оценить эффективность моделей. PPL предоставляет представление о предсказательных возможностях модели, а показатели точности предлагают конкретные показатели производительности. Результаты были обнадеживающими, модели LINE показали конкурентоспособную производительность в различных задачах, не уступая установленным моделям в этой области.

Основой их успеха стал ряд бесценных советов для эффективного обучения языковой модели большого масштаба. Они охватывают вопросы тонкой настройки, гиперпараметр бета2 Адама, оптимальных скоростей обучения и применения обдуманного расписания скорости обучения. Исследуя эти технические тонкости, LINE разработала мощные модели и поделилась пониманиями, которые приносят пользу всему сообществу.

В заключение, выпуск японских языковых моделей LINE с параметрами 1,7B и 3,6B является значительным прорывом в обработке естественного языка. Их приверженность выпуску настроенных моделей в будущем подтверждает их стремление улучшить возможности языковых моделей. Пока LINE продолжает делать прогресс, глобальное сообщество с нетерпением ожидает долгосрочного влияния их текущих вкладов.