Все, что вам следует знать о оценке больших языковых моделей

Оценка больших языковых моделей

Открытые языковые модели

От перплексии к измерению общего интеллекта

Изображение, сгенерированное автором с использованием Stable Diffusion.

По мере того как открытые языковые модели становятся все более доступными, легко заблудиться среди всех вариантов.

Как мы определяем их производительность и сравниваем их? И как мы можем уверенно сказать, что одна модель лучше другой?

В этой статье представлены некоторые ответы, представлены метрики обучения и оценки, а также общие и специфические показатели для ясного представления производительности вашей модели.

Если вы пропустили, взгляните на первую статью в серии “Открытые языковые модели”:

Введение в открытые языковые модели большого масштаба с открытым исходным кодом

Почему все говорят о ламах, альпаках, соколах и других животных

towardsdatascience.com

Перплексия

Языковые модели определяют вероятностное распределение по словарю слов для выбора наиболее вероятного следующего слова в последовательности. Для заданного текста языковая модель присваивает каждому слову в языке вероятность, и выбирается наиболее вероятное.

Перплексия измеряет, насколько хорошо языковая модель может предсказать следующее слово в заданной последовательности. Как метрика обучения она показывает, насколько хорошо модели изучили свой набор данных.

Мы не будем вдаваться в математические детали, но интуитивно, минимизация перплексии означает максимизацию предсказанной вероятности.

Другими словами, лучшая модель – это та, которая не удивляется, когда видит новый текст, потому что она ожидает его – это означает, что она уже хорошо предсказала, какие слова следуют дальше в последовательности.

Хотя перплексия полезна, она не учитывает смысл слов или контекст, в котором они используются, и она зависит от того, как мы токенизируем наши данные – разные языковые модели с различными словарями и техниками токенизации могут давать разные показатели перплексии, что делает прямые сравнения менее значимыми.

Перплексия – полезная, но ограниченная метрика. Мы используем ее в основном для отслеживания прогресса во время обучения модели или для сравнения…