Tag: pandas

Векторизованные поиски серии Pandas в словаре

Постановка задачи: Ряд столбцов same_group pandas, same_group необходимо создать из булевых в соответствии со значениями двух существующих столбцов, row и столбца. Строка должна показывать True, если обе ячейки по строке имеют одинаковые значения (пересекающиеся значения) в memberships в словаре, а False в противном случае (без пересекающихся значений). Как это сделать векторным способом (не используя apply)? […]

есть ли способ пропустить неконвертируемые строки при выпуске серии pandas из str для float?

У меня есть pandas datagframe, созданный из файла csv. Один столбец этой рамки данных содержит числовые данные, которые изначально передаются в виде строки. Большинство записей являются числовыми, но некоторые содержат различные коды ошибок, которые не являются числовыми. Я не знаю заранее, каковы будут все коды ошибок или сколько их есть. Так, например, кадр данных может […]

конвертировать python xgboost dMatrix в numpy ndarray или pandas DataFrame

Я следую примеру xgboost на главной странице git: https://github.com/dmlc/xgboost/blob/master/demo/guide-python/basic_walkthrough.py#L64 в этом примере они читают файлы, непосредственно помещенные в dMatrix – dtrain = xgb.DMatrix('../data/agaricus.txt.train') dtest = xgb.DMatrix('../data/agaricus.txt.test') Я посмотрел на код dMatrix , кажется, что нет никакого способа кратко посмотреть, как структурированы данные – как мы обычно делаем в pandas.DataFrame.head() с pandas.DataFrame.head() в документации xgboost упоминается, […]

Изменять номера Pandas to_dict

Я играл с функцией, которая вводит данные CSV и использует функцию pandas to_dict как один из шагов, направленных на достижение конечной цели преобразования данных в JSON. Проблема в том, что он изменяет числа (например, 1.6 становится 1.6000000000000001). Я не беспокоюсь о потере точности, но поскольку пользователи будут видеть изменения в номерах, это выглядит … любительским. […]

Python Pandas: не удается найти numpy.core.multiarray при импорте панд

Я пытаюсь получить свой код (работает в eclipse) для импорта панд. Я получаю следующую ошибку: «ImportError: numpy.core.multiarray не удалось импортировать», когда я пытаюсь импортировать панды. Я использую python2.7, pandas 0.7.1 и numpy 1.5.1

Анализ данных на основе времени с помощью Python

У меня есть проект, в котором физические датчики отправляют данные на сервер. Данные отправляются нерегулярно – после чего активируется датчик, но не реже, чем каждые 20 минут. На сервере данные хранятся в базе данных Posgresql. Структура данных выглядит так: Sensor Table sensor name – string sensor serial no – string sensor type – foreign key […]

Почему pd.concat ({}, axis = 1) медленнее, чем pd.concat ({}, axis = 0) .unstack (0)?

Рассмотрим этот словарь серии панд. Индекс всех серий является целым числом и имеет некоторое потенциальное совпадение, но, разумеется, не совпадает. Я pd.concat что pd.concat кажется медленным при объединении вещей вдоль axis=1 когда у меня есть большие индексы, много неперекрывающихся элементов и множество элементов для конкатенации. Это побудило меня оставить axis=0 и впоследствии unstack() . Я […]

Pandas – быстрое хранилище данных для приложения Flask

Я впечатлен скоростью выполнения преобразований, загрузкой данных и простотой использования Pandas и желанием использовать все эти приятные свойства (среди прочего) для моделирования некоторых больших массивов данных (~ 100-200k строк, <20 столбцов) , Цель состоит в том, чтобы работать с данными на некоторых вычислительных узлах, а также предоставлять представление наборов данных в браузере через Flask . […]

В Pandas Как отсортировать один уровень мультииндекса на основе значений столбца, сохраняя при этом группировку другого уровня

В настоящее время я беру курс по изучению данных в университете, но я немного застрял в проблеме сортировки с несколькими индексами. Фактические данные включают около миллиона обзоров фильмов, и я пытаюсь проанализировать это на основе американских почтовых индексов, но чтобы проверить, как делать то, что я хочу, я использовал гораздо меньший набор данных из 250 […]

Python: l2-Penalty для модели логистической регрессии из statsmodels?

Есть ли способ поставить l2-Penalty для модели логистической регрессии в statsmodel через параметр или что-то еще? Я только что нашел l1-Penalty в документах, но ничего для l2-Penalty.

Python - лучший язык программирования в мире.