Tag: pandas

Преобразование индекса в MultiIndex (иерархический индекс) в Pandas

В данных, которые я работаю с индексом, является составным, т. name@domain.com|2013-05-07 05:52:51 +0200 Имеет как имя элемента, так и name@domain.com|2013-05-07 05:52:51 +0200 метку, например name@domain.com|2013-05-07 05:52:51 +0200 . Я хочу сделать иерархическую индексацию, так что одни и те же электронные письма сгруппированы вместе, поэтому мне нужно преобразовать индекс DataFrame в MultiIndex (например, для записи выше […]

Pandas: фильтровать фрейм данных для слишком частых или слишком редких значений

На кадре данных pandas я знаю, что могу группировать по одному или нескольким столбцам, а затем фильтровать значения, которые встречаются больше / меньше заданного числа. Но я хочу сделать это в каждом столбце на кадре данных. Я хочу удалить значения, которые являются слишком редкими (допустим, это происходит менее 5% раз) или слишком часто. В качестве […]

Преобразование данных запасов OHLC в разные временные рамки с помощью python и pandas

Может ли кто-нибудь указать мне в правильном направлении относительно преобразования таймфрейма данных OHLC с помощью Pandas ? То, что я пытаюсь сделать, это построить Dataframe с данными для более высоких таймфреймов, учитывая данные с более низким таймфреймом. Например, учитывая, что у меня есть следующие одноминутные (M1) данные: Open High Low Close Volume Date 1999-01-04 10:22:00 […]

Использование pandas для чтения текстового файла с ведущими пробелами дает столбец NaN

Я использую pandas.read_csv для чтения файла с разделителями пробелов. Файл имеет переменное количество пробельных символов перед каждой строкой (числа выровнены по правому краю). Когда я читаю этот файл, он создает столбец NaN. Почему это происходит, и как лучше всего это предотвратить? Пример: Текстовый файл: 9.0 3.3 4.0 32.3 44.3 5.1 7.2 1.1 0.9 Команда: import […]

Pandas HDF5 как база данных

Я использую pandon pandas за последний год, и меня действительно впечатляет его производительность и функциональность, однако pandas еще не является базой данных. В последнее время я думал о путях интеграции возможностей анализа панд в плоскую базу данных HDF5. К сожалению, HDF5 не предназначен для параллельной работы. Я искал вдохновение в системах блокировки, распределенных очередях задач, […]

Pandas df.describe (), можно ли это делать по строкам без транспонирования?

Pandas df.describe () – очень полезный метод для обзора вашего df. Однако он описывает столбцы, и я хотел бы получить обзор строк. Есть ли способ заставить его работать «by_row» без переноса df?

Набор данных Pandas в массив для моделирования в Scikit-Learn

Можем ли мы запустить модели scikit-learn на Pandas DataFrames или нам нужно преобразовать DataFrames в массивы NumPy?

Ошибка при записи python pandas dataframe в файл csv

У меня проблема с записью фрейма данных Pandas в файл csv. Я думаю, есть som-символы, которые нельзя перевести, но я не знаю, как исправить эту проблему. Мне нужна помощь в этом. Вот мой простой вызов и сообщение об ошибке: big_frame.to_csv('C:\DRO\test.csv') ошибка: C:\Python27\lib\site-packages\pandas\lib.pyd in pandas.lib.write_csv_rows (pandas\lib.c:13528)() UnicodeEncodeError: 'ascii' codec can't encode character u'\xd6' in position 1: […]

Python: как удалить строки, заканчивающиеся на определенные символы?

У меня большой файл данных, и мне нужно удалить строки, которые заканчиваются на определенные буквы. Вот пример файла, который я использую: User Name DN MB212DA CN=MB212DA,CN=Users,DC=prod,DC=trovp,DC=net MB423DA CN=MB423DA,OU=Generic Mailbox,DC=prod,DC=trovp,DC=net MB424PL CN=MB424PL,CN=Users,DC=prod,DC=trovp,DC=net MBDA423 CN=MBDA423,OU=DNA,DC=prod,DC=trovp,DC=net MB2ADA4 CN=MB2ADA4,OU=DNA,DC=prod,DC=trovp,DC=netenter code here Код, который я использую: from pandas import DataFrame, read_csv import pandas as pd f = pd.read_csv('test1.csv', sep=',',encoding='latin1') df […]

применяется ряд строк pandas

Подобно этому вопросу R , я хотел бы применить функцию к каждому элементу в Серии (или каждой строке в DataFrame) с использованием Pandas, но хочу использовать в качестве аргумента этой функции индекс или идентификатор этой строки. В качестве тривиального примера предположим, что вы хотите создать список кортежей формы [(index_i, value_i), …, (index_n, value_n)]. Используя простой […]

Python - лучший язык программирования в мире.