История открытых LLM-моделей лучшие базовые модели (часть вторая)
История лучших базовых моделей открытых LLM-моделей (часть вторая)
Как LLaMA, MPT, Falcon и LLaMA-2 расставили открытые LLM-модели на карте…

Открытое исследование на больших языковых моделях (LLMs) имеет огромную ценность, так как его целью является демократизация мощной и влиятельной технологии. Хотя открытые LLM-модели теперь широко используются и изучаются, в начале исследования в этой области возникли некоторые трудности, которые было сложно преодолеть. В частности, открытые LLM-модели сначала работали плохо и были сильно критикованы. В данном обзоре мы рассмотрим линию исследования, которая изменила эту ситуацию, сделав высокопроизводительные предварительно обученные LLM-модели доступными всем. Учитывая, что предварительное обучение модели языка настолько дорогое, модели, которые мы рассмотрим здесь, особенно важны. После создания и выпуска этих высокопроизводительных базовых моделей многие люди смогли проводить исследования, используя эти модели с минимальными дополнительными затратами.
«Возможности LLM-моделей впечатляющи, учитывая на первый взгляд простоту методологии обучения.» — из [14]
Нынешняя серия. Этот обзор является второй частью серии из трех частей, посвященной истории открытых LLM-моделей. Первая часть серии рассмотрела первые попытки создания открытых LLM-моделей. Здесь мы рассмотрим наиболее популярные открытые базовые модели (т.е. модели языка, которые были предварительно обучены, но не дообучены или выровнены), которые в настоящее время доступны. В следующий раз мы рассмотрим, как эти модели могут быть дообучены или выровнены для создания различных полезных приложений.
![(из [10, 12, 14, 15])](https://ai.miximages.com/miro.medium.com/v2/resize:fit:640/format:webp/0*MeEEiteM3uV0O6eo.png)
Первые дни открытых LLM-моделей
В первой части этой серии мы узнали, что в первые дни исследования открытых LLM-моделей было предложено несколько важных базовых моделей, таких как OPT и BLOOM. Однако эти модели широко считались довольно неэффективными по сравнению с предварительно обученными LLM-моделями закрытого исходного кода (например, GPT-3). Как решить эту проблему? Сначала нам нужно более подробно рассмотреть процесс обучения LLM-моделей.
- Практическое руководство по обучению с подкреплением
- Искусственный интеллект в аналитике
- Освоение искусства стратегии науки о данных Разговор с AI-видионером Вином Вашиштой
Обучающий процесс. LLM-модели обучаются в несколько этапов, как показано на рисунке ниже. Сначала мы предварительно обучаем модель…