DeepSeek открывает исходный код модели DeepSeek-67B новейший конкурент ChatGPT из Китая

DeepSeek раздвигает завесу и открывает исходный код своей модели DeepSeek-67B – новейшего конкурента китайского ChatGPT

“`html

Китайская стартап DeepSeek AI открывает новую эру больших языковых моделей (LLM) с запуском семейства DeepSeek LLM. Включающие в себя модели DeepSeek LLM 7B/67B Base и DeepSeek LLM 7B/67B Chat – эти модели с открытым исходным кодом являются значительным прорывом в понимании языка и многофункциональном применении.

Одной из выдающихся особенностей LLM от DeepSeek является исключительная производительность модели 67B Base по сравнению с моделью Llama2 70B Base, проявляя превосходные возможности в рассуждениях, кодировании, математике и понимании китайского языка.

Этот качественный прорыв в возможностях DeepSeek LLM демонстрирует их компетентность в широком спектре применений. Особо примечательным является достижение DeepSeek Chat, который получил впечатляющую проходную оценку 73.78% на кодирующих бенчмарках HumanEval, опередив модели с аналогичными размерами. Он проявил выдающиеся умения, набрав 84.1% на математическом наборе данных GSM8K без дополнительной настройки.

Решение DeepSeek AI предоставить с открытым исходным кодом 7-милиардную и 67-милиардную версии своих моделей, включая базовые и специализированные варианты чата, направлено на распространение исследований и коммерческого применения искусственного интеллекта.

Для обеспечения объективной и всесторонней проверки производительности, DeepSeek AI разработала новые наборы задач, такие как Венгерское национальное среднее экзаменационное задание и набор данных для оценки следования инструкциям от Google. Эти оценки эффективно подчеркивают выдающиеся возможности модели в работе с ранее не известными экзаменами и заданиями.

Стартап предоставил детали своего тщательного процесса сбора данных и обучения, которые были направлены на повышение разнообразия и оригинальности, при соблюдении авторских прав. Многоэтапный процесс включал отбор качественного текста, математических формул, кода, литературных произведений и различных типов данных, а также фильтры для удаления вредоносного и дублирующего контента.

Языковые модели DeepSeek, разработанные с архитектурами, аналогичными LLaMA, прошли тщательное предварительное обучение. Модель 7B использовала механизм многоголового внимания, в то время как модель 67B использовала группируемое внимание к запросам. Режим обучения использовал большие пакеты данных с графиком многократного понижения скорости обучения, обеспечивая устойчивые и эффективные возможности обучения.

Занимая ведущую позицию в расширении доступности современных открытых языковых моделей LLM, DeepSeek AI подчеркнул важное достижение в понимании языка и доступности искусственного интеллекта, способствуя инновациям и широкому применению в данной области.

Пост DeepSeek открывает доступ к модели DeepSeek-67B: Последний соперник ChatGPT из Китая появился сначала на MarkTechPost.

“`