6 ошибок в Pandas, которые молча говорят, что вы новичок

6 ошибок в Pandas, говорящих о вашем новичковом статусе

Отсутствие сообщений об ошибке – вот что делает их тонкими

Изображение от меня

Введение

Мы все привыкли к большим, толстым, красным сообщениям об ошибках, которые часто появляются во время написания кода. К счастью, люди их не замечают, потому что мы всегда исправляем эти ошибки. Но как насчет ошибок, которые не вызывают сообщений об ошибках? Они самые сложные, но профессионалы легко их выявляют.

Эти ошибки не связаны с API или синтаксисом используемого вами инструмента, но непосредственно связаны с лучшими практиками и тем, сколько времени вы тратите на инструмент. Сегодня мы здесь, чтобы поговорить о шести таких распространенных ошибках, которые часто возникают у новичков в использовании Pandas, и выучить, как их решить.

1. Использование самого Pandas

Иронично, что первая ошибка связана с фактическим использованием Pandas для определенных задач. Конкретно, современные реальные табличные наборы данных просто огромны. Загрузка их в вашу среду с использованием Pandas была бы огромной ошибкой.

Почему? Потому что это очень медленно! Ниже мы загружаем набор данных TPS за октябрь 2021 года с 1 миллионом строк и примерно 300 признаками, который занимает целых 2,2 ГБ на диске.

Это заняло около 22 секунд. Теперь вы можете сказать, что 22 секунды – это не так много, но представьте себе следующее. В рамках одного проекта вы будете выполнять много экспериментов на разных этапах. Вы, вероятно, создадите отдельные скрипты или блокноты для очистки данных, создания признаков, выбора модели и многих других задач.

Ожидание загрузки данных в течение 20 секунд несколько раз действительно раздражает. Кроме того, ваш набор данных может быть еще больше. Итак, каково более быстрое решение?

Решение заключается в отказе от использования Pandas на этом этапе и использовании других альтернатив, которые разработаны специально для быстрого ввода-вывода. На этом этапе мой любимый вариант – это datatable, но вы также можете выбрать Dask, Vaex, cuDF или даже polars. Вот сколько времени занимает загрузка того же набора данных с помощью datatable: