Статистика в науке о данных теория и обзор

Statistical theory and overview in data science

 

Вы заинтересованы в освоении статистики, чтобы выделиться на собеседовании по науке о данных? Если да, то вы не должны делать это только для собеседования. Понимание статистики может помочь вам получить более глубокие и детальные идеи из ваших данных.

В этой статье я собираюсь показать наиболее важные концепции статистики, которые необходимо знать, чтобы стать лучше в решении проблем науки о данных.

 

Введение в статистику

 

Когда вы думаете о статистике, что первое приходит на ум? Возможно, вы думаете о численно выраженной информации, такой как частоты, проценты и среднее значение. Просто посмотрите на новости по телевизору и газеты, вы видели данные о инфляции в мире, количество занятых и безработных людей в вашей стране, данные о смертельных случаях на улице и проценты голосов за каждую политическую партию по результатам опроса. Все эти примеры являются статистикой.

Производство этих статистических данных является наиболее явным применением дисциплины, называемой статистикой. Статистика – это наука, занимающаяся разработкой и изучением методов сбора, интерпретации и представления эмпирических данных. Кроме того, область статистики можно разделить на два разных сектора: описательная статистика и статистика вывода.

Годовая перепись населения, частотные распределения, графики и числовые сводки являются частью описательной статистики. Для статистики вывода мы обращаемся к набору методов, которые позволяют обобщать результаты на основе части населения, называемой выборкой.

В проектах науки о данных мы всегда имеем дело с выборками. Поэтому результаты, которые мы получаем с помощью моделей машинного обучения, являются приближенными. Модель может хорошо работать на этой конкретной выборке, но это не означает, что она будет иметь хорошие показатели на новой выборке. Все зависит от тренировочной выборки, которая должна быть представительной, чтобы хорошо обобщить характеристики популяции.

 

EDA с помощью графиков и числовых сводок

 

В проекте науки о данных, исследовательский анализ данных является самым важным шагом, который позволяет нам проводить первоначальные исследования данных с помощью сводной статистики и графических представлений. Он также позволяет нам обнаруживать закономерности, выявлять аномалии и проверять предположения. Кроме того, он помогает находить ошибки, которые могут быть обнаружены в данных.

В исследовательском анализе данных основное внимание уделяется переменным, которые могут быть двух типов:

  • числовые, если переменная измеряется на числовой шкале. Она может быть разделена на дискретные и непрерывные. Она является дискретной, когда существуют отдельные количества. Примерами дискретных переменных являются оценка и количество людей в семье. Когда мы имеем дело с непрерывной переменной, набор возможных значений находится в пределах конечного или бесконечного интервала, такого как рост, вес и возраст.
  • категориальные, если переменная обычно состоит из двух или более категорий, таких как статус занятости (занят, безработный и ищущий работу) и тип работы. Как и числовые переменные, категориальные переменные можно разделить на два разных типа: порядковые и номинальные. Переменная является порядковой, когда есть естественная упорядоченность категорий. Примером может быть зарплата с низким, средним и высоким уровнями. Когда категориальная переменная не имеет определенного порядка, она является номинальной. Простым примером номинальной переменной является пол с уровнями женский и мужской.

 

EDA одномерных данных

 

 

Чтобы понять числовые характеристики, мы обычно используем df.describe(), чтобы получить обзор статистики для каждой переменной. Вывод содержит количество, среднее значение, стандартное отклонение, минимальное и максимальное значения, медиану, первый и третий квартили.

Вся эта информация также может быть представлена в графическом представлении, называемом ящик с усами. Линия через ящик – это медиана, а нижняя и верхняя границы соответствуют первому и третьему квартилю. Помимо информации, предоставляемой ящиком, есть две линии, также называемые усами, которые представляют два хвоста распределения. Все данные, находящиеся за пределами усов, являются выбросами.

Из этого графика также можно наблюдать, является ли распределение симметричным или асимметричным:

  • Распределение является симметричным, когда форма напоминает колокол, медиана приближенно совпадает с математическим ожиданием, и усики имеют одинаковую длину.
  • Распределение смещено вправо (положительное смещение), если медиана близка к третьему квартилю.
  • Распределение смещено влево (отрицательное смещение), если медиана близка к первому квартилю.

Другие важные аспекты распределения можно визуализировать с помощью гистограммы, которая показывает, сколько данных попадает в каждый интервал. Можно выделить четыре типа формы:

  • один пик/мода
  • два пика/моды
  • три или более пика/моды
  • равномерное распределение без явной моды

Когда переменные являются категориальными, лучший способ – это рассмотреть таблицу частот для каждого фактора признака. Для более наглядной визуализации можно использовать столбчатую диаграмму с вертикальными или горизонтальными столбцами в зависимости от переменной.

EDA двумерных данных

Ранее мы перечислили подходы для понимания одномерного распределения. Теперь пришло время изучить взаимосвязи между переменными. Для этой цели обычно вычисляют коэффициент корреляции Пирсона, который является мерой линейной связи между двумя переменными. Диапазон этого коэффициента корреляции находится в пределах от -1 до 1. Чем ближе значение корреляции к одному из этих двух крайних значений, тем сильнее связь. Если оно близко к 0, то связь между двумя переменными слабая.

Кроме корреляции, есть еще диаграмма рассеяния, которая визуализирует взаимосвязь между двумя переменными. В этом графическом представлении каждая точка соответствует определенному наблюдению. Она часто не содержит много информации, когда в данных есть много изменчивости. Чтобы получить больше информации о паре переменных, можно добавить сглаженные линии и преобразовать данные.

Вероятностные распределения

Знание вероятностных распределений может сделать разницу при работе с данными.

Вот наиболее используемые вероятностные распределения в науке о данных:

  • Нормальное распределение
  • Распределение хи-квадрат
  • Равномерное распределение
  • Распределение Пуассона
  • Экспоненциальное распределение

Нормальное распределение

Нормальное распределение, также известное как Гауссово распределение, является самым популярным распределением в статистике. Оно характеризуется колоколообразной формой, высоким пиком в середине и хвостами к концу. Оно симметрично и одномодально. Кроме того, в нормальном распределении есть два параметра, которые играют ключевую роль: математическое ожидание и стандартное отклонение. Математическое ожидание совпадает с пиком, а ширина кривой представлена стандартным отклонением. Существует особый тип нормального распределения, называемый стандартным нормальным распределением, с математическим ожиданием, равным 0, и дисперсией, равной 1. Оно получается путем вычитания математического ожидания из исходного значения и затем деления на стандартное отклонение.

Распределение Стьюдента

Оно также называется t-распределением с v степенями свободы. Как и стандартное нормальное распределение, оно одномодально и симметрично относительно нуля. Оно немного отличается от гауссового распределения, потому что имеет меньшую концентрацию в середине и большую концентрацию на хвостах. Оно рассматривается при небольшом размере выборки. Чем больше размер выборки, тем больше t-распределение будет сходиться к нормальному распределению.

Распределение хи-квадрат

 

 

Это особый случай гамма-распределения, известный своими применениями в проверке гипотез и построении доверительных интервалов. Если у нас есть набор нормально распределенных и независимых случайных переменных, мы вычисляем квадрат каждой случайной переменной и суммируем все полученные квадраты, итоговое случайное значение будет подчиняться хи-квадрат распределению.  

 

Равномерное распределение

 

 

Это еще одно популярное распределение, с которым вы, безусловно, сталкивались при работе над проектом по науке о данных. Идея заключается в том, что все результаты имеют равную вероятность возникновения. Популярным примером является бросание шестигранного кубика. Как вы знаете, каждая грань кубика имеет одинаковую вероятность выпадения, и результат подчиняется равномерному распределению. 

 

Распределение Пуассона

 

Пример распределения Пуассона. Иллюстрация автора.  

Оно используется для моделирования количества событий, которые случайным образом происходят много раз в определенный промежуток времени. Примерами распределения Пуассона являются количество людей в сообществе, достигших возраста старше 100 лет, количество отказов системы в день, количество звонков на горячую линию за определенное временное окно.

 

Экспоненциальное распределение

 

Пример экспоненциального распределения. Иллюстрация автора.  

Оно используется для моделирования времени между событиями, которые случайным образом происходят много раз в определенный промежуток времени. Примерами могут быть время ожидания на горячей линии, время до следующего землетрясения, оставшееся время жизни у пациента с раком.

 

Тестирование гипотез

 

Тестирование гипотез – это статистический метод, который позволяет сформулировать и оценить гипотезу о популяции на основе выборочных данных. Таким образом, это форма статистического вывода. Этот процесс начинается с гипотезы о параметрах популяции, также называемой нулевой гипотезой, которую необходимо проверить, тогда как альтернативная гипотеза (H1) представляет собой противоположное утверждение. Если данные сильно отличаются от предположений, то нулевая гипотеза (H0) отвергается, и результат считается “статистически значимым”.     

После определения двух гипотез следует выполнить другие шаги:

  • Установить уровень значимости, который является критерием для отвержения нулевой гипотезы. Типичные значения – 0,05 и 0,01. Этот параметр ? определяет, насколько сильным является эмпирическое доказательство против нулевой гипотезы, пока она не будет отвергнута.  
  • Рассчитать статистику, которая является числовой величиной, вычисленной на основе выборки. Она помогает нам определить правило принятия решения, чтобы минимизировать риск ошибки. 
  • Вычислить p-значение, которое является вероятностью получения статистики, отличающейся от параметра, указанного в нулевой гипотезе. Если оно меньше или равно уровню значимости (например, 0,05), мы отвергаем нулевую гипотезу. Если p-значение больше уровня значимости, мы не можем отвергнуть нулевую гипотезу.

Существует огромное разнообразие тестов гипотез. Допустим, мы работаем над проектом по науке о данных и хотим использовать модель линейной регрессии, которая известна своими сильными предположениями о нормальности, независимости и линейности. Прежде чем применить статистическую модель, мы предпочли бы проверить нормальность признака, касающегося веса взрослых женщин с диабетом. Нам может помочь тест Шапиро-Уилка. Также есть библиотека на языке Python, называемая Scipy, с реализацией этого теста, в которой нулевая гипотеза заключается в том, что переменная следует нормальному распределению. Мы отвергаем гипотезу, если p-значение меньше или равно уровню значимости (например, 0,05). Мы можем принять нулевую гипотезу, что означает, что переменная имеет нормальное распределение, если p-значение больше уровня значимости.  

 

Заключительные мысли

 

Надеюсь, вы нашли эту введение полезным. Я считаю, что овладение статистикой возможно, если теория сопровождается практическими примерами. Конечно, существуют и другие важные концепции статистики, которые я не рассмотрел здесь, но я предпочел сосредоточиться на концепциях, которые я нашел полезными в своем опыте в качестве специалиста по обработке данных. Знаете ли вы другие статистические методы, которые помогли вам в работе? Оставьте их в комментариях, если у вас есть интересные предложения.

Ресурсы:

  • HyperStat – онлайн учебник по статистике
  • Меры положения
  • Наиболее используемые распределения вероятности в науке о данных

    Евгения Анелло в настоящее время является исследователем в отделе информационной инженерии Университета Падуи, Италия. Ее исследовательский проект сосредоточен на непрерывном обучении в сочетании с обнаружением аномалий.