Метрики оценки машинного обучения теория и обзор

Machine Learning Metrics Theory and Overview

 

Построение модели машинного обучения, которая хорошо обобщает новые данные, является очень сложной задачей. Ее необходимо оценить, чтобы понять, достаточно ли хороша модель или требуются некоторые изменения для улучшения ее производительности.

Если модель недостаточно хорошо извлекает шаблоны из обучающего набора данных, она будет плохо работать как на обучающем, так и на тестовом наборе данных. Это так называемая проблема недообучения.

Если модель изучает слишком много шаблонов обучающих данных, включая шум, она будет хорошо работать на обучающем наборе данных, но плохо работать на тестовом наборе данных. Это проблема переобучения. Обобщение модели можно достичь, если показатели производительности как на обучающем, так и на тестовом наборе данных будут сходными.

В этой статье мы рассмотрим наиболее важные метрики оценки для задач классификации и регрессии, которые помогут проверить, насколько хорошо модель извлекает шаблоны из обучающей выборки и хорошо работает на неизвестных данных. Приступим!

 

Классификация

 

Когда наша цель является категориальной, мы имеем дело с задачей классификации. Выбор наиболее подходящих метрик зависит от различных аспектов, таких как характеристики набора данных, является ли он несбалансированным или нет, и цели анализа.

Перед тем, как показать метрики оценки, необходимо объяснить важную таблицу, называемую матрицей ошибок, которая хорошо резюмирует производительность модели классификации.

Предположим, что мы хотим обучить модель для обнаружения рака груди на ультразвуковом изображении. У нас есть только два класса: злокачественный и доброкачественный.

  • True Positives: Количество людей в терминальной стадии рака, у которых предсказывается злокачественный рак
  • True Negatives: Количество здоровых людей, у которых предсказывается доброкачественный рак
  • False Positives: Количество здоровых людей, у которых предсказывается злокачественный рак
  • False Negatives: Количество людей в терминальной стадии рака, у которых предсказывается доброкачественный рак

 

 

Точность

 

 

Точность является одной из наиболее известных и популярных метрик для оценки модели классификации. Это доля правильных предсказаний, деленная на количество образцов.

Точность применяется, когда мы знаем, что набор данных сбалансирован. То есть каждый класс выходной переменной имеет одинаковое количество наблюдений.

Используя точность, мы можем ответить на вопрос “Предсказывает ли модель правильно все классы?”. Поэтому у нас есть правильные предсказания как для положительного класса (злокачественный рак), так и для отрицательного класса (доброкачественный рак).

 

Точность

 

 

В отличие от точности, точность является метрикой оценки для классификации, используемой при несбалансированных классах.

Точность отвечает на следующий вопрос: “Какая доля идентификаций злокачественного рака была действительно правильной?”. Она вычисляется как отношение True Positives к положительным предсказаниям.

Мы заинтересованы в использовании точности, если нам важно минимизировать ложноположительные результаты. Лучше избегать попыток убить здоровых людей ложными новостями о злокачественном раке.

Чем меньше ложноположительных результатов, тем выше будет точность.

 

Полнота

 

 

Вместе с точностью, полнота является еще одной метрикой, применяемой при различном количестве наблюдений классов выходной переменной. Полнота отвечает на вопрос: “Какая доля пациентов с злокачественным раком я смог распознать?”.

Если наше внимание сосредоточено на ложных отрицательных результатах, мы заботимся о полноте. Ложный отрицательный результат означает, что пациент имеет злокачественную опухоль, но мы не смогли ее обнаружить. Поэтому полнота и точность должны быть отслеживаемыми для достижения желательного хорошего результата на неизвестных данных.

 

F1-мера

 

 

Отслеживание и полноты, и точности может быть запутанным, и было бы предпочтительно иметь меру, которая обобщает оба этих показателя. Это возможно с помощью F1-меры, которая определяется как гармоническое среднее точности и полноты. 

Высокая F1-мера обоснована тем, что и точность, и полнота имеют высокие значения. Если точность или полнота имеют низкие значения, F1-мера будет штрафоваться и, следовательно, также будет иметь низкое значение. 

 

Регрессия

 

 

Когда выходная переменная является числовой, мы имеем дело с проблемой регрессии. Как и в задаче классификации, важно выбрать метрику для оценки модели регрессии в зависимости от целей анализа.

Самым популярным примером проблемы регрессии является предсказание цен на жилье. Нас интересует точное предсказание цен на жилье? Или нам просто важно минимизировать общую ошибку? 

Во всех этих метриках строительным блоком является остаток, который представляет собой разницу между предсказанными значениями и фактическими значениями.

 

Средняя абсолютная ошибка (MAE)

 

  Средняя абсолютная ошибка вычисляет среднюю абсолютную ошибку. 

Она не штрафует большие ошибки так сильно, как другие метрики оценки. Каждая ошибка обрабатывается одинаково, даже ошибки выбросов, поэтому эта метрика устойчива к выбросам. Кроме того, абсолютное значение разницы игнорирует направление ошибки. 

 

Средняя квадратичная ошибка (MSE)

 

 

Средняя квадратичная ошибка вычисляет среднюю квадратичную ошибку.

Поскольку разница между предсказанными и фактическими значениями возводится в квадрат, она уделяет больше внимания большим ошибкам, 

поэтому она может быть полезна, когда большие ошибки нежелательны, вместо минимизации общей ошибки.  

 

Корень из средней квадратичной ошибки (RMSE)

 

 

Корень из средней квадратичной ошибки вычисляет квадратный корень из средней квадратичной ошибки.

Когда вы понимаете MSE, вам потребуется мгновение, чтобы понять корень из средней квадратичной ошибки, который является просто квадратным корнем из MSE.

Хорошим аспектом RMSE является то, что его легче интерпретировать, поскольку метрика находится в масштабе целевой переменной. За исключением формы, он очень похож на MSE: он всегда уделяет больше внимания большим различиям.  

 

Средняя абсолютная процентная ошибка (MAPE)

 

 

Средняя абсолютная процентная ошибка вычисляет среднюю абсолютную процентную разницу между предсказанными значениями и фактическими значениями.

Как и MAE, она игнорирует направление ошибки, а лучшее возможное значение идеально равно 0. 

Например, если мы получаем MAPE со значением 0.3 для предсказания цен на жилье, это означает, что в среднем прогнозы находятся ниже на 30%.

 

Заключительные мысли

 

Надеюсь, вам понравился этот обзор метрик оценки. Я рассмотрел самые важные показатели для оценки производительности моделей классификации и регрессии. Если у вас есть другие спасительные метрики, которые помогли вам решить проблему, но они здесь не упоминаются, оставьте свои комментарии.     Евгения Анелло в настоящее время является научным сотрудником в отделе информационной инженерии Университета Падуи, Италия. Ее исследовательский проект сосредоточен на непрерывном обучении в сочетании с обнаружением аномалий.