Познакомьтесь с моделью Skywork-13B семейством больших моделей языка (LLM), обученных на корпусе из более чем 3,2 трлн токенов, извлеченных из английских и китайских текстов.

Знакомство с моделью Skywork-13B большая модель языка (LLM), обученная на корпусе из более чем 3,2 трлн токенов, извлеченных из английских и китайских текстов.

Двуязычные LLM-модели становятся все важнее в нашем связанном мире, где языковое разнообразие является общим вызовом. Они имеют потенциал преодолевать языковые барьеры, способствовать межкультурному пониманию и улучшать доступ к информации и услугам для людей, говорящих на разных языках. Двуязычные LLM-модели могут использоваться для предоставления высококачественных услуг машинного перевода. Они могут переводить текст с одного языка на другой, помогая преодолевать языковые барьеры и облегчать общение между разными культурами и регионами.

С ростом потребности в таких моделях возрастает и тенденция к коммерциализации и необходимость большей прозрачности. Многие организации предоставляют доступ к публичным проверочным точкам модели и удерживают важную информацию о модели. Чтобы вернуть прозрачность в искусственном интеллекте, исследователи в компании Kunlun Technology создали семейство больших языковых моделей, обученных на более чем 3,2 трлн токенах из английских и китайских текстов со всесторонним представлением. Оно называется Skywork – 13B.

Семейство Skywork-13B включает в себя Skywork-13B-Base и Skywork-13BChat. Base – это модель на основе современной китайской языковой модели, а chat – это модифицированная версия, оптимизированная для разговоров. В отличие от других организаций, они раскрывают подробную информацию о процессе обучения и составе данных.

Они также выпустили промежуточные контрольные точки, которые являются ценным ресурсом для понимания развития возможностей модели во время обучения. Они считают, что такая прозрачность позволяет другим исследователям использовать контрольные точки для своих задач. Они также разработали новый метод, который определяет уровень использования данных в домене во время этапа обучения.

Команда обучала базовую модель Skywork-13B на SkyPile. Вместо того, чтобы обучать ее на всем SkyPile, они использовали двухэтапный подход. На первом этапе они проводили основной этап предварительного обучения, включающий обучение модели с нуля на SkyPile-Main. На втором этапе модель оптимизировалась с использованием знаний в области науки, техники, инженерии и математики (STEM) путем постоянного предварительного обучения на SkyPile-STEM.

В процессе обучения модели команда исследовала потери языкового моделирования на различных вариантах проверочных наборов, отражающих различные распределения данных, создавая отдельные проверочные наборы для кода, научных публикаций, сообщений в социальных сетях и веб-текстов на китайском и английском языках. Они утверждают, что такой подход облегчает построение, упрощает вычисление, повышает чувствительность к процессу обучения и является модельно-независимым.

Модель Skywork-13B оказывает лучшие результаты в целом. Она достигла самого низкого среднего значения перплексии – 9,42. Она также демонстрирует лучшую производительность в отдельных областях, достигая самых низких значений перплексии в областях технологий, кино, правительства и финансов. Она превосходит не только модели схожего размера, но и значительно превосходит модели гораздо большего объема, такие как InternLM-20B и Aquila2-34B.