На сколько можно полагаться на соотношение?

Насколько можно доверять соотношению?

Узнайте, как оценить, насколько надежно соотношение действительно использует Empirical Bayes Analysis в Python

Фото от rupixen.com на Unsplash

Введение

Одним из моих источников в области Data Science является Julia Silge. В своих видео-уроках Tidy Tuesday она всегда проводит кодирование, чтобы научить/показать определенную технику и помочь другим аналитикам повысить свои навыки и внедрить их в свой репертуар.

В прошлый вторник она разбирала Empirical Bayes (ее пост в блоге), что привлекло мое внимание.

Но что это такое?

Empirical Bayes

Empirical Bayes – это статистический метод, используемый, когда мы работаем с соотношениями типа [успех]/[всего попыток]. Когда мы работаем с такими переменными, часто сталкиваемся с соотношением 1/2 (50% успешности), 3/4 (75%), 0/1 (0%).

Такие крайние проценты не отражают долгосрочную реальность, потому что было так мало попыток, что очень сложно сказать, есть ли там тенденция, и в большинстве случаев эти случаи просто игнорируются или удаляются. Нужно больше попыток, чтобы определить реальный уровень успешности, например 30/60, 500/100 или что-то в этом роде для бизнеса.

Однако, используя Empirical Bayes, мы можем использовать текущее распределение данных для расчета оценки данных в более ранних или поздних стадиях, как будет показано в этом посте.

Мы используем распределение данных для оценки более ранних и поздних стадий соотношения каждого наблюдения.

Анализ

Перейдем к анализу. Шаги для выполнения следующие:

  1. Загрузите данные
  2. Определите успех и рассчитайте соотношение успеха
  3. Определите параметры распределения
  4. Рассчитайте оценки Байеса
  5. Рассчитайте доверительный интервал

Перейдем к следующему шагу.

Импорт

# Импортimport pandas as pdimport numpy as npimport scipy.stats as scsimport matplotlib.pyplot as pltimport seaborn as snsimport plotly.express as pxfrom distfit import distfit