Демократизация искусственного интеллекта влияние MosaicML на открытое движение LLM

Демократизация искусственного интеллекта влияние MosaicML на движение LLM в открытом доступе

Как высококачественные базовые модели открывают новые возможности для всей отрасли…

(Фото автора Raimond Klavins с Unsplash)

Недавно мы рассмотрели много текущих исследований по созданию открытых моделей больших языков (LLMs). Все эти работы основаны на общем фреймворке с несколькими простыми компонентами; см. ниже.

Многоступенчатый процесс создания и усовершенствования LLM (из [12, 13])

Хотя этот фреймворк имеет несколько шагов, первый шаг можно считать наиболее важным. Создание более мощной базовой модели путем обширного предварительного обучения высокого качества позволяет добиться лучших результатов при настройке LLM с помощью наблюдаемого тонкого настройки (SFT) и обучения с подкреплением на основе обратной связи человека (RLHF). Затем, благодаря использованию улучшенной модели, улучшаются приложения на следующих этапах. Предварительно обученная (базовая) модель является общей отправной точкой для любого применения LLM.

До недавнего времени открытые базовые модели либо показывали худшую производительность по сравнению с закрытыми аналогами, либо могли использоваться только в научных исследованиях. Однако это изменилось с выпуском MPT-7B и MPT-30B [1, 2] компанией MosaicML. Эти открытые базовые модели достигают впечатляющего уровня производительности, бесплатны для коммерческого использования и поставляются с полным комплексом эффективного программного обеспечения для обучения, настройки и оценки LLM. Эти инструменты с открытым исходным кодом позволяют исследовать широкий спектр специализированных случаев использования LLM за существенно сниженную стоимость, делая их мощным ресурсом для практиков в области искусственного интеллекта.

Более быстрые LLM и большая длина контекста

Модели MPT-7B/30B основаны на типичной архитектуре только декодера трансформера. Однако внесены несколько ключевых изменений, включая:

В этом разделе мы узнаем о каждой из этих компонентов, о том, как они работают и как они влияют на LLM. Чтобы полностью понять детали этого раздела, может быть полезным ознакомиться с такими понятиями, как: