Tag: pandas

Фильтрация кадра данных pandas с несколькими столбцами Boolean

Я пытаюсь отфильтровать df, используя несколько логических переменных, которые являются частью df, но не смогли этого сделать. Пример данных: A | B | C | D John Doe | 45 | True | False Jane Smith | 32 | False | False Alan Holmes | 55 | False | True Eric Lamar | 29 | […]

метки класса в Pandas scattermatrix

Этот вопрос задан раньше, Несколько данных в матрице рассеяния , но не получили ответа. Я хотел бы сделать матрицу рассеяния, что-то вроде в pandas docs , но с разным цветом маркеров для разных классов. Например, я хотел бы, чтобы некоторые точки отображались зеленым, а другие – синим цветом в зависимости от значения одного из столбцов […]

Как добавить добавочные числа в новый столбец с помощью Pandas

У меня есть этот упрощенный dataframe: ID Fruit F1 Apple F2 Orange F3 Banana Я хочу добавить в начале DataFrame новый столбец df['New_ID'] который имеет число 880 которое увеличивается на единицу в каждой строке. Результат должен быть просто следующим: New_ID ID Fruit 880 F1 Apple 881 F2 Orange 882 F3 Banana Я попробовал следующее: df['New_ID'] […]

Программно преобразовать фрейм данных pandas в таблицу уценки

У меня есть Pandas Dataframe, созданный из базы данных, у которой есть данные со смешанными кодировками. Например: +—-+————————-+———-+————+————————————————+——————————————————–+————–+———————–+ | ID | path | language | date | longest_sentence | shortest_sentence | number_words | readability_consensus | +—-+————————-+———-+————+————————————————+——————————————————–+————–+———————–+ | 0 | data/Eng/Sagitarius.txt | Eng | 2015-09-17 | With administrative experience in the prepa… | I am able […]

Пул многопроцессорности Python не создает достаточных процессов

Я выполняю расчеты на 40 ГБ данных. Каждый файл представляет собой сжатый файл gzip, содержащий строки json. Каждый файл имеет максимум 500 000 строк или около 500 МБ. У меня есть экземпляр amazon, работающий с 128 процессорами и 1952 ГБ памяти. Я пытаюсь сделать процесс каждого файла как можно быстрее. Я использую многопроцессорные пулы следующим […]

Использование булевской индексации для строки и столбца MultiIndex в Pandas

Вопросы находятся в конце, выделены жирным шрифтом . Но сначала создадим некоторые данные: import numpy as np import pandas as pd from itertools import product np.random.seed(1) team_names = ['Yankees', 'Mets', 'Dodgers'] jersey_numbers = [35, 71, 84] game_numbers = [1, 2] observer_names = ['Bill', 'John', 'Ralph'] observation_types = ['Speed', 'Strength'] row_indices = list(product(team_names, jersey_numbers, game_numbers, observer_names, […]

Максимальный размер кадра данных pandas

Я пытаюсь прочитать несколько большой набор данных, используя функции panda s read_csv или read_stata , но я продолжаю работать с Memory Error . Каков максимальный размер кадра данных? Я понимаю, что данные должны быть в порядке, пока данные вписываются в память, что не должно быть проблемой для меня. Что еще может вызвать ошибку памяти? В […]

Panda Dataframe Повторная выборка на основе критериев столбцов

Я хочу перепрограммировать dataframe, если ячейка в другом столбце соответствует моим критериям df = pd.DataFrame({ 'timestamp': [ '2013-03-01 08:01:00', '2013-03-01 08:02:00', '2013-03-01 08:03:00', '2013-03-01 08:04:00', '2013-03-01 08:05:00', '2013-03-01 08:06:00' ], 'Kind': [ 'A', 'B', 'A', 'B', 'A', 'B' ], 'Values': [1, 1.5, 2, 3, 5, 3] }) Для каждой отметки времени у меня может быть […]

pandas roll apply ничего не делает

У меня есть DataFrame, как это: df2 = pd.DataFrame({'date': ['2015-01-01', '2015-01-02', '2015-01-03'], 'value': ['a', 'b', 'a']}) date value 0 2015-01-01 a 1 2015-01-02 b 2 2015-01-03 a Я пытаюсь понять, как применить к нему пользовательскую функцию качения. Я пробовал это: df2.rolling(2).apply(lambda x: 1) Но это дает мне оригинальный DataFrame: date value 0 2015-01-01 a 1 […]

Хранение pandas DataFrames в моделях SQLAlchemy

Я создаю приложение флэша, которое позволяет пользователям загружать CSV-файлы (с различными столбцами), просматривать загруженные файлы, создавать сводные статистические данные, выполнять сложные преобразования / агрегации (иногда через задания Celery), а затем экспортировать измененные данные. Загруженный файл считывается в pandas DataFrame, что позволяет мне элегантно обрабатывать большую часть сложной работы с данными. Я бы хотел, чтобы эти […]

 
Interesting Posts for Van-Lav

Как создать только один файл с sphinx

Perl или Python: конвертировать дату с dd / mm / yyyy в yyyy-mm-dd

Python – Отмена печати ()

Строка Юникода Python, хранящаяся как «\ u84b8 \ u6c7d \ u5730» в файле, как ее преобразовать в Unicode?

Несоответствие между sys.executable и sys.version в Python

Google App Engine отличается от своего локального сервера приложений

Как аккуратно держать под шириной 80 символов с длинными строками?

Intellij Python не импортирует из .pydevproject

Модели Django – SELECT DISTINCT (foo) Из таблицы слишком медленно

Помещение символа Copyright в файл Python

В каких файлах я должен указывать VCS игнорировать при использовании Sphinx для документации?

как определить, является ли строка base64 или нет

Использовать Python для удаления строк в файлах, начинающихся с октоторпа?

построение и форматирование диаграммы морского дна из pandas dataframe

Flask-admin встроенное моделирование, передающее форму аргументы throws AttributeError

Python - лучший язык программирования в мире.