Tag: pandas

Установите IntelliJ / Pycharm для обработки предупреждения панды «Неразрешенные ссылки»

Всякий раз, когда я пытаюсь получить доступ к атрибуту non-method серии или DataFrame (например, columns или loc ), IntelliJ выдает мне предупреждение «неразрешенной ссылки», которое не разбивает мой код, но довольно неприятно видеть. Я бы предпочел не отключать этот осмотр, и я бы хотел, чтобы избежать перекоса моего кода с подавлениями. Я установил параметр «Собирать […]

Преобразование большого массива данных SAS в hdf5

У меня есть несколько больших (> 10 ГБ) наборов данных SAS, которые я хочу преобразовать для использования в пандах, предпочтительно в HDF5. Существует много разных типов данных (даты, числовые, текстовые), а некоторые числовые поля также имеют разные коды ошибок для отсутствующих значений (т. Е. Значения могут быть., .E, .C и т. Д.). Я надеюсь сохранить […]

Почему df.apply (кортеж) работает, но не df.apply (list)?

Вот кадр данных: ABC 0 6 2 -5 1 2 5 2 2 10 3 1 3 -5 2 8 4 3 6 2 Я мог бы получить столбец, который является в основном кортежем столбцов из исходного df используя df.apply : out = df.apply(tuple, 1) print(out) 0 (6, 2, -5) 1 (2, 5, 2) 2 […]

python pandas beginner: многомерный процесс анализа данных (groupby + agg + plot)

Я новичок в пандах и пытаюсь научиться обрабатывать свои многомерные данные. Мои данные Предположим, что мои данные представляют собой большой CSV столбцов ['A', 'B', 'C', 'D', 'E', 'F', 'G']. Эти данные описывают некоторые результаты моделирования, где ['A', 'B', …, 'F'] являются параметрами моделирования, а «G» является одним из выходов (только существующий вывод в этом примере!). […]

когда использовать DataFrame.eval () в сравнении с pandas.eval () или python eval ()

У меня есть несколько дюжин условий (например, foo > bar ), которые мне нужно оценить на ~ 1MM строках DataFrame , и наиболее сжатым способом написания этого является сохранение этих условий в виде списка строк и создание DataFrame из булевых результаты (одна строка за запись x один столбец за условие). (Пользовательский ввод не оценивается.) В […]

Транспонирование части кадра данных pandas

У меня есть следующий фреймворк: >>> df Out[15]: group type amount number 0 group_A buy 100 123 1 group_A view 0 111 2 group_B view 0 222 3 group_A view 0 222 Я хотел бы изменить данные, чтобы в итоге: type group_A group_B 0 amount buy 100 0 1 number buy 0 123 2 number […]

Отделите конкретный столбец и добавьте их в виде столбцов в CSV (Python3, CSV)

У меня есть файл csv, который имеет несколько столбцов, которые я сначала разделил двоеточием (;). Тем не менее, ОДНА колонка ограничена трубой | и я хотел бы разграничить этот столбец и создать новые столбцы. Входные данные: Column 1 Column 2 Column 3 1 2 3|4|5 6 7 6|7|8 10 11 12|13|14 Желаемый результат: Column 1 […]

Подсвечник Участок из Pandas DataFrame

У меня есть выходной файл данных pandas следующим образом Open High Low Close 2016-06-01 69.60 70.20 69.44 69.76 2016-06-02 70.00 70.15 69.45 69.54 2016-06-03 69.51 70.48 68.62 68.91 2016-06-04 69.51 70.48 68.62 68.91 2016-06-05 69.51 70.48 68.62 68.91 2016-06-06 70.49 71.44 69.84 70.11 Я использовал следующий код, чтобы сделать подсвечник: import pandas as pd import […]

Pb конвертирует список pandas.Series в массив numpy pandas.Series

Я хотел бы преобразовать список pandas.Series в массив с множеством pandas.Series. Но когда я вызываю конструктор массива, он также преобразует мою Серию. >>> l = [Series([1,2,3]),Series([4,5,6])] >>> np.array(l) array([[1, 2, 3], [4, 5, 6]], dtype=int64) Мой список невелик (~ 10 элементов), поэтому для проблем с производительностью ( https://stackoverflow.com/questions/22212777/python-pandas-small-series-performances?noredirect1_comment33725521_22212777 ) Я бы хотел, чтобы не создавать […]

Потоковые данные для pandas df

Я пытаюсь имитировать использование панд для доступа к постоянно меняющемуся файлу. У меня есть один файл, читающий файл csv, добавляя к нему строку, затем спящий случайное время для имитации массового ввода. import pandas as pd from time import sleep import random df2 = pd.DataFrame(data = [['test','trial']], index=None) while True: df = pd.read_csv('data.csv', header=None) df.append(df2) df.to_csv('data.csv', […]

Python - лучший язык программирования в мире.