Очень ясно объясняются различия между методами cut и qcut в Pandas (наконец-то)

Наконец разбираем основные различия между методами cut и qcut в Pandas

Как обычно разбивать данные в Pandas

Фото от Karan Bhatia на Unsplash

Мотивация

“Что это за фигня?”

Такую реакцию обычно вызывает у начинающих людей вывод некоторых сложных функций pandas. Всегда меня удивляло, как множество руководств и курсов вводят такие функции в одном предложении и переходят к другим темам на ходу. Даже если вы прочитаете всю их документацию с начала до конца, это займет больше минуты, гарантированно.

Будучи начинающим, я всегда был так разочарован, когда оказывался в таких ситуациях. Однажды, когда проходил обучение на Udacity, я изучал тепловые карты Matplotlib. Как вы знаете, Matplotlib не может автоматически создавать аннотации для тепловых карт, как Seaborn, поэтому их нужно создавать вручную. Для этого вы будете использовать функции qcut или cut (о которых и пойдет речь в этой статье), чтобы разделить ваши данные на категории, и я был абсолютно новичком в использовании этих функций.

Инструктор в одном предложении кратко “объяснил” функции, и на экране появилась ссылка на документацию🤦‍♂️. Он даже перематывал части, где печатал синтаксис.

В последнее время я пишу небольшую серию, где объясняю самые сложные функции pandas, в надежде, что другие люди не столкнутся с теми же трудностями. Это часть четвертая, и в ней рассматривается разделение числовых данных с помощью qcut и cut.

Настройка

Для примера буду использовать встроенный набор данных planets из библиотеки seaborn:

>>> planets.describe()