Сокол Вершина открытых LLM

Сокол Вершина Открытого LLM

Разрыв между открытыми и проприетарными LLM продолжает сокращаться…

(Фото Алана Мерсома на Unsplash)

Недавние исследования в области открытых крупномасштабных языковых моделей (LLM) в основном сосредотачивались на двух направлениях: обучении подражанию и предварительном обучении открытых базовых моделей. Оба подхода пригодны, но создание высококачественных открытых базовых моделей особенно привлекательно, поскольку эти модели могут быть дополнительно настроены (по более низкой стоимости) и использованы в различных прикладных задачах. Первые попытки создания этих моделей не удалось. Хотя более поздние модели (например, LLaMA и MPT-7B) работают намного лучше, эти модели до недавнего времени боролись, чтобы соответствовать качеству своих проприетарных аналогов (например, GPT-3.5 или GPT-4).

С выпуском LLM Falcon-7B и Falcon-40B [1] у нас впервые появились открытые базовые модели LLM, которые начинают соперничать по качеству с самыми популярными платными моделями. Обученные на огромном текстовом корпусе, полученном через новую систему обработки данных, эти модели достигают нового уровня качества среди открытых LLM и бесплатно доступны для коммерческого использования. Кроме того, модели Falcon претерпевают несколько модификаций их базовой трансформерной архитектуры, которые значительно ускоряют вывод и могут даже повысить эффективность предварительного обучения.

(из [1, 2])

Общая картина. Процесс создания LLM включает несколько этапов; они описаны ниже. Первый этап этого процесса (т.е. получение предварительно обученной базовой модели) хорошо известно, что является самым затратным, как с точки зрения денег, так и времени.

Многоэтапный процесс создания и уточнения LLM (из [16, 17])

Ранее такие модели были доступны только через проприетарные API, но прогресс в открытых LLM сделал базовые LLM более широко доступными для публичного использования. Falcon – одна из таких моделей и она достигает беспрецедентного уровня производительности по сравнению с другими альтернативами с открытым исходным кодом.

Использование веб-данных для предварительного обучения LLM