Upstage представляет Solar-10.7B Революционные модели с глубинным увеличением и уточненной точностью для однонарных разговоров

Upstage представляет Solar-10.7B Революционные модели с глубинным увеличением и уточненной точностью для однонарных разговоров

Исследователи компании Upstage (AI-компания из Южной Кореи) справились с задачей максимизации производительности языковых моделей при минимизации их параметров. В крупных языковых моделях (LLM), где размер модели часто коррелирует с производительностью, Upstage представляет инновационную модель Solar-10.7B с 10,7 миллиардами параметров. Это новшество устраняет неизбежный компромисс между размером модели и производительностью, наблюдаемым в моделях, превышающих 30 миллиардов параметров.

В отличие от существующих инструментов, модель Solar-10.7B компании Upstage использует архитектуру Llama 2 и применяет новую технику, известную как Upstage Depth Up-Scaling. Вдохновленный Mistral 7B, этот метод включает интеграцию весов Mistral 7B в масштабированные слои, а затем комплексную предварительную подготовку. Компактный дизайн и исключительная производительность Solar-10.7B превосходят даже более крупные модели, такие как Mixtral 8X7B. Он идеально подходит для тонкой настройки и демонстрации адаптивности и надежности в различных языковых задачах.

Более того, Upstage предлагает настроенную версию, SOLAR-10.7B-Instruct-v1.0, специально разработанную для одноразового разговора. Используя передовые методы настройки инструкций, включая наблюдаемую настройку (SFT) и прямую оптимизацию предпочтений (DPO), исследователи использовали разнообразные наборы данных для обучения. Эта настроенная модель достигает замечательного показателя Model H6 в 74,20, что подтверждает ее эффективность в сценариях одноразового диалога.

Производительность Solar-10.7B обусловлена его сложной архитектурой и стратегией обучения. Техника масштабирования глубины, основанная на архитектуре Llama 2, позволяет модели превосходить те, у которых до 30 миллиардов параметров. Интеграция весов Mistral 7B в масштабированные слои способствует его замечательной производительности, превосходящей даже модель Mixtral 8X7B. Результаты оценки демонстрируют мастерство Solar-10.7B с показателем Model H6 в 74,20, подтверждая его превосходство даже по сравнению с более крупными моделями, такими как Meta Llama 2.

Настроенная SOLAR-10.7B-Instruct-v1.0 превосходит другие модели в сценариях одноразового разговора с впечатляющим показателем Model H6 в 74,20. Этот подход к настройке, используя тщательно отобранные наборы данных для обучения на основе инструкций, еще раз подчеркивает его адаптивность и улучшение производительности.

В заключение, Solar-10.7B и его настроенная версия представляют собой значительные прорывы в области крупных языковых моделей. Решая проблему балансировки размера модели и производительности, исследователи компании Upstage стратегически разработали и настроили эти модели для достижения результатов новейших исследований. Инновационная техника масштабирования глубины и интеграция Mistral 7B подчеркивают их адаптивность и эффективность. По мере того, как исследователи продолжают превышать границы разработки языковых моделей, Solar-10.7B и его настроенная версия являются подтверждением продолжающегося стремления к оптимизации производительности в обработке естественного языка.

Пост Upstage представляет Solar-10.7B: Первоначальные крупные языковые модели с масштабированием глубины и настроенной точностью для одноразовых разговоров появился сначала на MarkTechPost.