«Смелость учиться ML Глубокий погружение в F1, Полноту, Точность и ROC-кривые».

Смелость погрузиться в мир ML глубокий взгляд на F1, полноту, точность и ROC-кривые

F1-балл: ваш ключевой показатель для несбалансированных данных — но вы действительно знаете, почему?

Мы воспользуемся аналогией сортировки белья для иллюстрации основных понятий полноты и точности; Фото: Ace Maxwell на Unsplash

Добро пожаловать обратно в наше путешествие с серией “Courage to Learn ML”. В этом уроке мы исследуем тонкий мир метрик. Многие материалы представляют эти метрики или углубляются в их математические аспекты, но те «простые» вычисления иногда остаются непонятными. Для тех, кто новичок в этой теме, я рекомендую ознакомиться с подробной публикацией Шервина и исчерпывающим руководством от neptune.ai.

В типовых подготовках к собеседованиям по науке о данных, когда речь идет о работе с несбалансированными данными, часто используется показатель F1-балл, известный как гармоническое среднее полноты и точности. Однако логика того, почему F1-балл особенно подходит для таких случаев, зачастую остается без объяснения. В этой публикации мы посвятим себя раскрытию этих причин, помогая вам понять выбор конкретных метрик в различных сценариях.

Как обычно, в этой публикации будут обозначены все вопросы, с которыми мы сталкиваемся. Если вы задавались этими же вопросами, вы попали в нужное место:

  • Что такое точность и полнота, и как мы можем интуитивно понять их?
  • Почему точность и полнота важны и почему они часто кажутся противоречащими друг другу? Возможно ли достичь высоких уровней обоих показателей?
  • Что такое F1-балл и почему мы вычисляем его как гармоническое среднее полноты и точности?
  • Почему F1-балл часто используется для несбалансированных данных? Он полезен только в таких сценариях?
  • Как меняется интерпретация F1-балла, когда положительный класс является большинством?
  • В чем разница между кривыми PR и ROC, и когда нам следует предпочесть использование одной из них?

С фундаментальным пониманием этих метрик наш учащийся обращается к ментору, занятому стиркой белья, с первым вопросом:

Я работаю над системой рекомендации игр. Она предназначена для предложения видеоигр на основе предпочтений и образа жизни пользователей. Но у меня есть…