3 лучших (часто лучше) альтернативы гистограммам

3 лучших альтернативы гистограммам

Избегайте самой опасной ловушки гистограмм

Изображение от меня с использованием Leonardo AI

Binning Bias, самый большой недостаток гистограмм

Гистограммы, вероятно, являются первым графиком, который вы могли использовать, начиная свой путь в качестве специалиста по обработке данных. Они интуитивно понятны и легко читаемы, позволяют понять форму распределений.

Однако, по мере продвижения по вашему пути, вы обнаружите, что гистограммы не так прекрасны. Гистограммы группируют значения в интервалы, называемые корзинами, и высота каждой корзины в гистограмме показывает количество точек в этой корзине. Рассмотрим этот пример:

Изображение от автора

Из этой гистограммы мы сразу видим, что большинство оценок находится между 60 и 80. Давайте посмотрим, что произойдет, если мы изменим количество корзин с 10 до 20:

Изображение от автора

Все равно, предыдущий тренд заметен. Давайте продолжим изменять, на этот раз с 20 до 40:

Изображение от автора

Теперь мы видим, что распределение не такое гладкое, как кажется. Вы можете заметить маленькие пики вокруг 40, 62, 68 и 80 с 40 корзинами. Таким образом, количество корзин может на самом деле затруднить понимание основных особенностей нашего распределения.

Однако, слишком сильное изменение количества корзин может привести к появлению случайного шума и создать иллюзию важных результатов. Это приводит нас к предвзятости корзинирования, которая является самым большим недостатком гистограмм.

Предвзятость корзинирования – это ловушка гистограммы, при которой вы получаете разные представления одних и тех же данных при изменении количества корзин для построения графика.

В последующих разделах мы рассмотрим три альтернативы гистограммы, которые избегают предвзятости корзинирования и дают лучшие результаты для сравнения распределений.

Освежающий курс по дискретным и непрерывным данным