Познакомьтесь с Baichuan 2 серией крупномасштабных многоязычных языковых моделей, состоящей из 7 миллиардов и 13 миллиардов параметров, обученных с нуля на 2,6 триллионах токенов.

Встречайте Baichuan 2 - масштабные многоязычные языковые модели с 7 и 13 миллиардами параметров, обученные на 2,6 трлн. токенов.

Большие языковые модели в последние годы сделали значительные и обнадеживающие прогрессы. Теперь языковые модели имеют миллиарды или даже триллионы параметров, таких как GPT3, PaLM и Switch Transformers, по сравнению с миллионами в более ранних моделях, таких как ELMo и GPT-1. Благодаря большей похожести на человеческую речь и возможности выполнения широкого спектра естественноязыковых задач, возможности языковых моделей значительно улучшились благодаря этому росту в размере. Способность этих моделей создавать текст, звучащий как человеческая речь, получила значительное внимание общественности с выпуском ChatGPT от OpenAI. ChatGPT обладает отличными языковыми навыками в различных контекстах, от неформального разговора до уточнения сложных идей.

Эта инновация показывает, как огромные языковые модели могут использоваться для автоматизации процессов, требующих создания и понимания естественного языка. Несмотря на инновационные разработки и использование LLM, большинство ведущих LLM, таких как GPT-4, PaLM-2 и Claude, по-прежнему являются закрытым исходным кодом. Поскольку разработчики и исследователи имеют только частичный доступ к параметрам модели, для сообщества сложно полностью анализировать или оптимизировать эти системы. Исследования и ответственное развитие в этой быстроразвивающейся области могут быть ускорены с помощью большей открытости и прозрачности в отношении LLM. LLaMA, коллекция больших языковых моделей, созданных Meta и имеющих до 65 миллиардов параметров, значительно помогла исследовательскому сообществу LLM, так как она полностью открытая.

Вместе с другими открытыми языковыми моделями, такими как OPT, Bloom, MPT и Falcon, открытость LLaMA позволяет академическому сообществу свободно получать доступ к моделям для анализа, тестирования и будущего развития. Эта доступность и открытость отличает LLaMA от других частных LLM. Alpaca, Vicuna и другие новые модели стали возможными благодаря более быстрому исследованию и разработке в области открытых LLM. Однако большинство открытых языковых моделей сосредоточены на английском языке. Например, Common Crawl1 является основным источником данных для LLaMA и содержит 67% предварительных данных, но может содержать только материал на английском языке. Другие свободные LLM с ограниченными возможностями на разных языках, включая MPT и Falcon, в основном сосредоточены на английском языке.

Это затрудняет разработку и использование LLM на определенных языках, таких как китайский. Исследователи из Baichuan Inc. представляют Baichuan 2, группу обширных многоязыковых языковых моделей, в этом техническом исследовании. Baichuan 2 включает две различные модели: Baichuan 2-13B и Baichuan 2-7B, каждая из которых имеет 13 миллиардов параметров. Обе модели были протестированы с использованием 2,6 трлн. токенов, что больше чем в два раза превышает образец Baichuan 1 и является наибольшим известным размером выборки для них. Baichuan 2 значительно превосходит Baichuan 1 с большим количеством обучающих данных. Baichuan 2-7B работает примерно на 30% лучше, чем Baichuan 1-7B на общих контрольных показателях, включая MMLU, CMMLU и C-Eval. Baichuan 2 оптимизирован специально для повышения производительности при решении задач математики и кодирования.

Baichuan 2 примерно вдвое улучшает результаты Baichuan 1 на тестах GSM8K и HumanEval. Кроме того, Baichuan 2 хорошо справляется с задачами в медицинской и юридической сферах. Baichuan 2 превосходит другие открытые модели на контрольных показателях, таких как MedQA и JEC-QA, что делает его хорошей моделью для оптимизации в конкретной предметной области. Они также создали две модели чата для выполнения инструкций человека: Baichuan 2-7B-Chat и Baichuan 2- 13B-Chat. Эти модели отлично понимают дискурс и контекст. Они также подробно расскажут о своих стратегиях для повышения безопасности Baichuan 2. Предоставление этим моделям открытого доступа может дальше увеличить безопасность больших языковых моделей и одновременно способствовать большему изучению ответственного создания LLM.

Кроме того, они публикуют контрольные точки Baichuan 2 на разных уровнях обучения, от 200 миллиардов токенов до всего 2,6 трлн. токенов, в духе исследовательского сотрудничества и постоянного прогресса. Они обнаружили, что производительность продолжает улучшаться даже с моделью с 7 миллиардами параметров после обучения на более чем 2,6 трлн. токенов. Они намерены дать сообществу больше понимания динамики обучения Baichuan 2, распространяя эти промежуточные результаты. Для понимания внутренней работы огромных языковых моделей необходимо понимание этих динамик. Публикация этих контрольных точек откроет новые возможности для развития в этой быстро развивающейся области. Модели чата и основные модели Baichuan 2 доступны на GitHub для изучения и коммерческих целей.