Все, что вам следует знать о оценке больших языковых моделей
Оценка больших языковых моделей
Открытые языковые модели
От перплексии к измерению общего интеллекта
![Изображение, сгенерированное автором с использованием Stable Diffusion.](https://miro.medium.com/v2/resize:fit:640/format:webp/1*_DfXZjA8CMPUC_3J4JJ3JQ.png)
По мере того как открытые языковые модели становятся все более доступными, легко заблудиться среди всех вариантов.
Как мы определяем их производительность и сравниваем их? И как мы можем уверенно сказать, что одна модель лучше другой?
В этой статье представлены некоторые ответы, представлены метрики обучения и оценки, а также общие и специфические показатели для ясного представления производительности вашей модели.
Если вы пропустили, взгляните на первую статью в серии “Открытые языковые модели”:
- «Персональный голосовой бот, основанный на искусственном интеллекте, для изучения языков»
- Видение премьер-министра Моди о регулировании искусственного интеллекта в Индии Саммит B20 2023 года
- 10 классных вещей, которые вы можете делать с эмбеддингами! [Часть 1]
Введение в открытые языковые модели большого масштаба с открытым исходным кодом
Почему все говорят о ламах, альпаках, соколах и других животных
towardsdatascience.com
Перплексия
Языковые модели определяют вероятностное распределение по словарю слов для выбора наиболее вероятного следующего слова в последовательности. Для заданного текста языковая модель присваивает каждому слову в языке вероятность, и выбирается наиболее вероятное.
Перплексия измеряет, насколько хорошо языковая модель может предсказать следующее слово в заданной последовательности. Как метрика обучения она показывает, насколько хорошо модели изучили свой набор данных.
Мы не будем вдаваться в математические детали, но интуитивно, минимизация перплексии означает максимизацию предсказанной вероятности.
Другими словами, лучшая модель – это та, которая не удивляется, когда видит новый текст, потому что она ожидает его – это означает, что она уже хорошо предсказала, какие слова следуют дальше в последовательности.
Хотя перплексия полезна, она не учитывает смысл слов или контекст, в котором они используются, и она зависит от того, как мы токенизируем наши данные – разные языковые модели с различными словарями и техниками токенизации могут давать разные показатели перплексии, что делает прямые сравнения менее значимыми.
Перплексия – полезная, но ограниченная метрика. Мы используем ее в основном для отслеживания прогресса во время обучения модели или для сравнения…