Сокол Вершина открытых LLM
Сокол Вершина Открытого LLM
Разрыв между открытыми и проприетарными LLM продолжает сокращаться…
![(Фото Алана Мерсома на Unsplash)](https://ai.miximages.com/miro.medium.com/v2/resize:fit:640/format:webp/1*cChLoKskrjAJPRc-vCA8Rw.jpeg)
Недавние исследования в области открытых крупномасштабных языковых моделей (LLM) в основном сосредотачивались на двух направлениях: обучении подражанию и предварительном обучении открытых базовых моделей. Оба подхода пригодны, но создание высококачественных открытых базовых моделей особенно привлекательно, поскольку эти модели могут быть дополнительно настроены (по более низкой стоимости) и использованы в различных прикладных задачах. Первые попытки создания этих моделей не удалось. Хотя более поздние модели (например, LLaMA и MPT-7B) работают намного лучше, эти модели до недавнего времени боролись, чтобы соответствовать качеству своих проприетарных аналогов (например, GPT-3.5 или GPT-4).
С выпуском LLM Falcon-7B и Falcon-40B [1] у нас впервые появились открытые базовые модели LLM, которые начинают соперничать по качеству с самыми популярными платными моделями. Обученные на огромном текстовом корпусе, полученном через новую систему обработки данных, эти модели достигают нового уровня качества среди открытых LLM и бесплатно доступны для коммерческого использования. Кроме того, модели Falcon претерпевают несколько модификаций их базовой трансформерной архитектуры, которые значительно ускоряют вывод и могут даже повысить эффективность предварительного обучения.
![(из [1, 2])](https://ai.miximages.com/miro.medium.com/v2/resize:fit:640/format:webp/0*DwS_vMXDU3md9-Yz.png)
Общая картина. Процесс создания LLM включает несколько этапов; они описаны ниже. Первый этап этого процесса (т.е. получение предварительно обученной базовой модели) хорошо известно, что является самым затратным, как с точки зрения денег, так и времени.
![Многоэтапный процесс создания и уточнения LLM (из [16, 17])](https://ai.miximages.com/miro.medium.com/v2/resize:fit:640/format:webp/0*3OBYLUAOgAPo3UFh.png)
Ранее такие модели были доступны только через проприетарные API, но прогресс в открытых LLM сделал базовые LLM более широко доступными для публичного использования. Falcon – одна из таких моделей и она достигает беспрецедентного уровня производительности по сравнению с другими альтернативами с открытым исходным кодом.
- Упрощение повторяющихся задач при проведении исследовательского анализа данных
- Понимание и смягчение галлюцинаций LLM
- Раскрытие силы текстовых данных с помощью LLM-моделей