Исследователи из Inception, MBZUAI и Cerebras предоставили в открытый доступ «Jais» самую передовую арабскую большую языковую модель в мире.

Researchers from Inception, MBZUAI, and Cerebras have released Jais, the most advanced Arabic language model in the world, to the public.

Большие языковые модели, такие как GPT-3, и их влияние на различные аспекты общества являются предметом значительного интереса и дебатов. Большие языковые модели значительно продвинули область NLP. Они улучшили точность различных языковых задач, включая перевод, анализ настроения, резюмирование и вопросно-ответные системы. Чат-боты и виртуальные помощники, основанные на больших языковых моделях, становятся более сложными и способными обрабатывать сложные разговоры. Они используются в службе поддержки клиентов, онлайн-чат-сервисах и даже в качестве компаньонов для некоторых пользователей.

Построение крупных языковых моделей на арабском языке представляет уникальные вызовы из-за особенностей арабского языка и разнообразия его диалектов. Как и большие языковые модели на других языках, арабские большие языковые модели могут наследовать предубеждения от тренировочных данных. Решение этих предубеждений и обеспечение ответственного использования ИИ в арабских контекстах является текущей проблемой.

Исследователи из Inception, Cerebras и Университета искусственного интеллекта Мохамеда бин Зайеда (ОАЭ) представили Jais и Jais-chat, новую арабскую языковую модель большого масштаба. Их модель основана на архитектуре генеративного предварительного обучения GPT-3 и использует всего 13 миллиардов параметров.

Их основной проблемой было получение качественных арабских данных для обучения модели. По сравнению с английскими данными, которые имеют корпусы объемом до двух триллионов токенов, они были легко доступны, но арабские корпусы были значительно меньше. Корпусы – это большие, структурированные коллекции текстов, используемые в лингвистике, обработке естественного языка (NLP) и анализе текста для исследований и обучения языковых моделей. Корпусы служат ценными ресурсами для изучения языковых закономерностей, семантики, грамматики и т. д.

Они обучили двуязычные модели для решения этой проблемы, дополнив ограниченные арабские данные предварительного обучения обширными данными предварительного обучения на английском языке. Они предварительно обучили Jais на 395 миллиардах токенов, включая 72 миллиарда арабских и 232 миллиарда английских токенов. Они разработали специализированный арабский текстовый обработчик, который включает тщательную фильтрацию и очистку данных для получения качественных арабских данных.

Они говорят, что предварительно обученные и дообученные возможности их модели превосходят все известные открытые арабские модели и сравнимы с передовыми открытыми английскими моделями, которые были обучены на больших наборах данных. Учитывая внутренние проблемы безопасности LLMs, они дополнительно дообучают его с учетом инструкций по безопасности. Они добавляют дополнительные препятствия в виде безопасных подсказок, фильтрации на основе ключевых слов и внешних классификаторов.

Они говорят, что Jais представляет собой важное развитие и расширение в области NLP и искусственного интеллекта на Ближнем Востоке. Он продвигает понимание и генерацию арабского языка, предоставляя местным участникам возможности суверенного и частного развертывания и способствуя развитию живого экосистемы приложений и инноваций. Эта работа поддерживает более широкую стратегическую инициативу цифровой и ИИ-трансформации, чтобы ввести более открытую, лингвистически инклюзивную и культурно осознанную эру.