3 лучших (часто лучше) альтернативы гистограммам
3 лучших альтернативы гистограммам
Избегайте самой опасной ловушки гистограмм
![Изображение от меня с использованием Leonardo AI](https://miro.medium.com/v2/resize:fit:640/format:webp/1*X_cjxAxJHkuQMfKX65knPw.jpeg)
Binning Bias, самый большой недостаток гистограмм
Гистограммы, вероятно, являются первым графиком, который вы могли использовать, начиная свой путь в качестве специалиста по обработке данных. Они интуитивно понятны и легко читаемы, позволяют понять форму распределений.
Однако, по мере продвижения по вашему пути, вы обнаружите, что гистограммы не так прекрасны. Гистограммы группируют значения в интервалы, называемые корзинами, и высота каждой корзины в гистограмме показывает количество точек в этой корзине. Рассмотрим этот пример:
![Изображение от автора](https://miro.medium.com/v2/resize:fit:640/format:webp/1*yNsEZ2tjZoiIwVQUcoCcJg.png)
Из этой гистограммы мы сразу видим, что большинство оценок находится между 60 и 80. Давайте посмотрим, что произойдет, если мы изменим количество корзин с 10 до 20:
![Изображение от автора](https://miro.medium.com/v2/resize:fit:640/format:webp/1*dkF9R4OYkX59jC9uHZpLOA.png)
Все равно, предыдущий тренд заметен. Давайте продолжим изменять, на этот раз с 20 до 40:
- Один маленький шаг для художников, один гигантский прыжок для творческого рода
- Обзор нативно поддерживаемых схем квантования в 🤗 Transformers
- Вариационные трансформаторы для композиции музыки Может ли искусственный интеллект заменить музыканта?
![Изображение от автора](https://miro.medium.com/v2/resize:fit:640/format:webp/1*AWkDnFaO8diVDNiJ4dU4Tw.png)
Теперь мы видим, что распределение не такое гладкое, как кажется. Вы можете заметить маленькие пики вокруг 40, 62, 68 и 80 с 40 корзинами. Таким образом, количество корзин может на самом деле затруднить понимание основных особенностей нашего распределения.
Однако, слишком сильное изменение количества корзин может привести к появлению случайного шума и создать иллюзию важных результатов. Это приводит нас к предвзятости корзинирования, которая является самым большим недостатком гистограмм.
Предвзятость корзинирования – это ловушка гистограммы, при которой вы получаете разные представления одних и тех же данных при изменении количества корзин для построения графика.
В последующих разделах мы рассмотрим три альтернативы гистограммы, которые избегают предвзятости корзинирования и дают лучшие результаты для сравнения распределений.