Понимание гистограмм и ядерной оценки плотности

Осознание гистограмм и ядерной оценки плотности понимание и применение

Глубокое исследование гистограмм и KDE

Гистограмма – это график, визуализирующий частоту числовых данных. Она широко используется в науке о данных и статистике как сырая оценка распределения набора данных. Ядерная оценка плотности (KDE) – это метод оценки функции плотности вероятности (PDF) случайной величины с неизвестным распределением с использованием случайной выборки из этого распределения. Таким образом, это позволяет нам выводить плотность вероятности популяции на основе конечного набора данных, отобранного из нее. KDE часто используется в обработке сигналов и науке о данных в качестве важного инструмента для оценки плотности вероятности. В этой статье обсуждаются математические идеи гистограмм и KDE, их преимущества и ограничения. Она также демонстрирует, как KDE может быть реализована на Python с нуля. Все изображения в этой статье созданы автором.

Функция плотности вероятности

Пусть X – непрерывная случайная величина. Вероятность того, что X принимает значение в интервале [a, b], можно записать в виде

где f(x) – функция плотности вероятности (PDF) X. Накопленная функция распределения (CDF) X определяется следующим образом:

Таким образом, CDF X, оцененная в x, является вероятностью того, что X примет значение меньше или равное x. Используя уравнение 1, мы можем записать:

Используя основную теорему исчисления, мы можем показать, что

что означает, что PDF X можно определить, взяв производную его CDF относительно x. Гистограмма – это самый простой подход для оценки PDF набора данных, как мы показываем в следующем разделе, она использует для этого уравнение 1.

Гистограммы

В Листинге 1 мы создаем двухмодовое распределение как смесь двух нормальных распределений и выбираем случайную выборку размером 1000 из этого распределения. Здесь мы смешиваем два нормальных распределения:

Таким образом, среднее значение нормальных распределений составляет 0 и 4 соответственно, а их дисперсия – 1 и 0,8 соответственно. Коэффициенты смешивания составляют 0,7 и 0,3, поэтому PDF смеси этих распределений равно:

Листинг 1 выводит этот PDF и выборку на рисунке 1.