Понимание гистограмм и ядерной оценки плотности
Осознание гистограмм и ядерной оценки плотности понимание и применение
Глубокое исследование гистограмм и KDE
Гистограмма – это график, визуализирующий частоту числовых данных. Она широко используется в науке о данных и статистике как сырая оценка распределения набора данных. Ядерная оценка плотности (KDE) – это метод оценки функции плотности вероятности (PDF) случайной величины с неизвестным распределением с использованием случайной выборки из этого распределения. Таким образом, это позволяет нам выводить плотность вероятности популяции на основе конечного набора данных, отобранного из нее. KDE часто используется в обработке сигналов и науке о данных в качестве важного инструмента для оценки плотности вероятности. В этой статье обсуждаются математические идеи гистограмм и KDE, их преимущества и ограничения. Она также демонстрирует, как KDE может быть реализована на Python с нуля. Все изображения в этой статье созданы автором.
Функция плотности вероятности
Пусть X – непрерывная случайная величина. Вероятность того, что X принимает значение в интервале [a, b], можно записать в виде
- Алгоритмы машинного обучения и GAN
- Серия по проектированию систем Последовательное руководство по созданию высокопроизводительных систем потоковой передачи данных с нуля!
- Я пережила 3 массовых сокращения на Spotify, вот что я вынесла из этого
где f(x) – функция плотности вероятности (PDF) X. Накопленная функция распределения (CDF) X определяется следующим образом:
Таким образом, CDF X, оцененная в x, является вероятностью того, что X примет значение меньше или равное x. Используя уравнение 1, мы можем записать:
Используя основную теорему исчисления, мы можем показать, что
что означает, что PDF X можно определить, взяв производную его CDF относительно x. Гистограмма – это самый простой подход для оценки PDF набора данных, как мы показываем в следующем разделе, она использует для этого уравнение 1.
Гистограммы
В Листинге 1 мы создаем двухмодовое распределение как смесь двух нормальных распределений и выбираем случайную выборку размером 1000 из этого распределения. Здесь мы смешиваем два нормальных распределения:
Таким образом, среднее значение нормальных распределений составляет 0 и 4 соответственно, а их дисперсия – 1 и 0,8 соответственно. Коэффициенты смешивания составляют 0,7 и 0,3, поэтому PDF смеси этих распределений равно:
Листинг 1 выводит этот PDF и выборку на рисунке 1.