Понимание метрик классификации Ваш руководитель по оценке точности модели

Осознание метрик классификации руководство по оценке точности модели от вашего руководителя

Мотивация

Метрики оценки – это инструменты измерения, которые мы используем, чтобы понять, насколько хорошо модель машинного обучения выполняет свою работу. Они помогают нам сравнивать разные модели и определить, какая работает лучше для конкретной задачи. В мире задач классификации существуют некоторые общепринятые метрики, чтобы узнать, насколько хороша модель, и важно знать, какая метрика подходит для нашей конкретной проблемы. Если мы разберемся в деталях каждой метрики, станет проще решить, какая из них подходит для нашей задачи.

В этой статье мы рассмотрим основные метрики оценки, используемые в задачах классификации, и рассмотрим ситуации, когда одна метрика может быть более соответствующей, чем другие.

Основная терминология

Прежде чем мы глубоко погрузимся в метрики оценки, важно понять основную терминологию, связанную с задачей классификации.

Образец истинных меток: Это относится к фактическим меткам, соответствующим каждому примеру в нашем наборе данных. Они являются основой всех оценок, и предсказания сравниваются с этими значениями.

Предсказанные метки: Это классификационные метки, предсказанные с использованием модели машинного обучения для каждого примера в нашем наборе данных. Мы сравниваем такие предсказания с истинными метками на основе различных метрик оценки, чтобы понять, насколько модель смогла изучить представления в наших данных.

Теперь рассмотрим только двоичную задачу классификации для более легкого понимания. С учетом только двух разных классов в нашем наборе данных, сравнение истинных меток с предсказанными метками может привести к одному из следующих четырех исходов, как показано на диаграмме.

Истинно положительные: Модель предсказывает положительную классификацию, когда истинная метка также положительная. Это требуемое поведение, так как модель успешно предсказывает положительную метку.

Ложно положительные: Модель предсказывает положительную классификацию, когда истинная метка отрицательная. Модель ошибочно идентифицирует образец данных как положительный.

Ложно отрицательные: Модель предсказывает отрицательную классификацию для положительного примера. Модель ошибочно идентифицирует образец данных как отрицательный.

Истинно отрицательные: Также необходимое поведение. Модель правильно идентифицирует отрицательный пример, предсказывая 0 для образца данных с истинной меткой 0.

Теперь мы можем углубиться в эти понятия, чтобы понять, как работают обычные метрики оценки.

Точность

Это самый простой и интуитивно понятный способ оценки производительности модели для задач классификации. Он измеряет долю правильно предсказанных меток среди всех меток.

Поэтому точность может быть вычислена следующим образом:

или

Когда использовать

  • Исходная оценка модели

Благодаря своей простоте точность является широко используемой метрикой. Она предоставляет хорошую отправную точку для проверки, насколько хорошо модель может обучаться, прежде чем мы используем метрики, специфичные для нашей предметной области.

  • Сбалансированные наборы данных

Точность подходит только для сбалансированных наборов данных, где все классификационные метки находятся в схожем соотношении. Если это не так, и одна из классификационных меток значительно превышает другие, модель все равно может достичь высокой точности, всегда предсказывая преобладающий класс. Точность одинаково наказывает неправильные предсказания для каждого класса, что делает ее непригодной для несбалансированных наборов данных.

  • Когда стоимость ошибочных классификаций одинакова

Точность подходит для случаев, когда ложно положительные и ложно отрицательные метки одинаково плохи. Например, для проблемы анализа настроений одинаково плохо, если мы классифицируем отрицательный текст как положительный или положительный текст как отрицательный. Для таких сценариев точность является хорошей метрикой.

 

Точность

 

Точность фокусируется на том, чтобы получить все положительные прогнозы правильно. Она измеряет, какая доля положительных прогнозов была действительно положительной.

Математически она представлена следующим образом:

 

 

Когда использовать

 

  • Высокая стоимость ложноположительных результатов

Рассмотрим ситуацию, когда мы обучаем модель для обнаружения рака. Для нас будет важнее не ошибиться в классификации пациента, у которого нет рака, то есть ложноположительного результата. Мы хотим быть уверены, когда мы делаем положительный прогноз, так как неправильная классификация человека как больного раком может привести к ненужному стрессу и расходам. Поэтому нам очень важно предсказать положительную метку только тогда, когда фактическая метка положительна.

  • Качество вместо Количества

Рассмотрим другой сценарий, где мы создаем поисковую систему, которая соответствует запросам пользователей набору данных. В таких случаях нам важно, чтобы результаты поиска соответствовали запросу пользователя. Мы не хотим возвращать ни одного документа, несоответствующего запросу пользователя, то есть ложноположительный результат. Поэтому мы предсказываем положительный результат только для документов, которые тесно соответствуют запросу пользователя. Мы ценим качество больше, чем количество, так как предпочитаем небольшое количество тесно связанных результатов вместо большого количества результатов, которые могут быть или не быть интересными для пользователя. Для таких сценариев нам нужна высокая точность.

 

Полнота

 

Полнота, также известная как Чувствительность, измеряет, насколько хорошо модель может запомнить положительные метки в наборе данных. Она измеряет, какая доля положительных меток в нашем наборе данных модель предсказывает как положительные.

 

Чем выше полнота, тем лучше модель запоминает данные образцы с положительными метками.

 

Когда использовать

 

  • Высокая стоимость ложных отрицательных результатов

Мы используем полноту, когда пропуск положительной метки может иметь серьезные последствия. Рассмотрим ситуацию, когда мы используем модель машинного обучения для обнаружения мошенничества с использованием кредитных карт. В таких случаях раннее обнаружение проблем является важным. Мы не хотим упустить мошенническую транзакцию, поскольку это может привести к увеличению убытков. Поэтому мы ценим полноту выше точности, где ошибочная классификация транзакции как обманный прием может быть легко проверена, и мы можем позволить себе несколько ложноположительных результатов вместо ложноотрицательных.

 

F1-мера

 

Это гармоническое среднее точности и полноты. Она наказывает модели, которые имеют значительное несоответствие между этими метриками.

 

Она широко используется в сценариях, где одновременно важны как точность, так и полнота, и позволяет достичь баланса между этими двумя показателями.

 

Когда использовать

 

  • Несбалансированные наборы данных

В отличие от точности, F1-мера подходит для оценки несбалансированных наборов данных, так как мы оцениваем производительность на основе способности модели вспомнить меньшинственный класс при поддержании высокой точности в целом.

  • Торговля точностью и полнотой

Обе метрики противоположны друг другу. Эмпирически, улучшение одной часто приводит к ухудшению другой. F1-мера помогает балансировать обе метрики и полезна в ситуациях, где и точность, и полнота имеют одинаковое значение. Учитывая обе метрики при расчете, F1-мера является широко используемой метрикой для оценки моделей классификации.

 

Основные моменты

 

Мы узнали, что разные метрики оценки имеют свои особенности. Знание этих метрик помогает нам выбрать подходящую для нашей задачи. В реальной жизни речь идет не только о наличии хороших моделей, но и о наличии моделей, которые идеально соответствуют нашим бизнес-потребностям. Поэтому выбор правильной метрики похож на выбор правильного инструмента для того, чтобы убедиться, что наша модель работает там, где это наиболее важно.

Все еще сбиты с толку, какую метрику использовать? Начать с точности – хороший первый шаг. Она дает базовое представление о производительности вашей модели. Оттуда вы можете настроить свою оценку в соответствии с вашими конкретными требованиями. В качестве альтернативы рассмотрите F1-меру, которая является универсальной метрикой, находящей баланс между точностью и полнотой, что делает ее подходящей для различных сценариев. Это может быть вашим основным инструментом для комплексной оценки классификации. Muhammad Arham – инженер глубокого обучения, работающий в области компьютерного зрения и обработки естественного языка. Он работал над развертыванием и оптимизацией нескольких приложений генеративного искусственного интеллекта, которые попали в мировые чарты в Vyro.AI. Он заинтересован в создании и оптимизации моделей машинного обучения для интеллектуальных систем и верит в непрерывное совершенствование.

[Muhammad Arham](https://www.linkedin.com/in/muhammad-arham-a5b1b1237/) – инженер глубокого обучения, работающий в области компьютерного зрения и обработки естественного языка. Он работал над развертыванием и оптимизацией нескольких приложений генеративного искусственного интеллекта, которые попали в мировые чарты в Vyro.AI. Он заинтересован в создании и оптимизации моделей машинного обучения для интеллектуальных систем и верит в непрерывное совершенствование.