Tag: dataframe

сохранять dataframe, чтобы преуспеть, когда каждое значение является dict

В настоящее время я работаю над проектом, чтобы прочитать несколько листов excel, проанализировать данные и сохранить объединенный файл данных обратно в файл excel. Я читаю несколько таблиц excel в dataframe, преобразую каждый из вложенных dict, а затем объединяя все с большим вложенным dict (3-мерным объемом данных) и, наконец, преобразовываю обратно в dataframe. Я закончил комбинирование […]

Чтение нескольких файлов csv, объединение списка имен файлов в единый DataFrame

У меня есть несколько файлов csv в каталоге, и я бы зацикливался на файлы csv, чтобы найти список имен файлов и прочитать их и объединить в один кадр данных. В случае одного, просто прочитайте набор данных в. Вот пример файлов csv, которые у меня есть в моем каталоге: 2013_nba.csv 2014_nba.csv 2015_nba.csv 2013_basketball.csv 2014_basketball.csv 2015_soccer.csv Это […]

Выбор колонок кадра данных в цикле

У меня есть список фреймов данных: df_list = [df1,df2,df3,df4] И я хочу выбрать только один из столбцов каждого из них, например: df1 = df1[['column_a','column_e','column_wa']] но я хочу сделать эту операцию в цикле for df in df_list: df = df[['column_a','column_e','column_wa']] но в конце цикла каждый из кадра данных имеет те же столбцы, что и раньше.

pandas: заполнить несколько пустых данных

Я объявляю несколько пустых фреймов данных следующим образом: variables = pd.DataFrame(index=range(10), columns=['P1', 'P2', 'P3'], dtype='float64') Q1 = pd.DataFrame(index=range(10), columns=['P1H1', 'P1H2'], dtype='float64') Я могу использовать fillna следующим образом: variables = variables.fillna(0) Q1 = Q1.fillna(0) Что такое более питонический способ одновременного заполнения нескольких кадров данных? Причина: здесь я дал только два кадра данных, однако в реальной проблеме […]

функция pandas для заполнения пропущенных значений из другого фрейма данных на основе соответствующего столбца?

Таким образом, у меня есть два кадра данных: один, где заполняются определенные столбцы, и один, где другие заполняются, но некоторые из предыдущего df отсутствуют. Обе имеют общие непустые столбцы. DF1: FirstName Uid JoinDate BirthDate Bob 1 20160628 NaN Charlie 3 20160627 NaN DF2: FirstName Uid JoinDate BirthDate Bob 1 NaN 19910524 Alice 2 NaN 19950403 […]

Применение функции к кадру данных Pandas по столбцу

У меня есть функция, которую я хочу применить к некоторым столбцам фреймворка pandas. Поэтому вместо того, чтобы явно указывать столбцы, я хочу динамически выбирать столбцы, которые я хочу, а затем вызывать функцию, например Как реализовать что-то вроде: for column in dataframe: if column.name != 'manager': apply function():

Сортировка в группе и добавление столбцов, указывающих строки ниже и выше

У меня есть рамка данных pandas, которая содержит что-то вроде +——+——–+—–+——-+ | Team | Gender | Age | Name | +——+——–+—–+——-+ | A | M | 22 | Sam | | A | F | 25 | Annie | | B | M | 33 | Fred | | B | M | 18 | […]

Получить индекс минимума мультииндекса Pandas DataFrame, используя уровень

У меня есть Pandas DataFrame, который многоиндексный и хочет найти минимальное значение определенного столбца в подмножестве строк на каждом уровне и получить все содержимое этих строк. import pandas as pd idx = pd.MultiIndex.from_product([['v1', 'v2'], ['record' + str(i) for i in range(1, 7)]]) df = pd.DataFrame([[2., 114], [2., 1140], [3., 114], [3., 1140], [5., 114], [5., […]

Python / Pandas – Замена элемента в одном фрейме данных значением из другого фрейма данных

У меня проблема с заменой элемента в одном pandas DataFrame значением из другого pandas DataFrame. Извинения за длинный пост. Я попытался дать много примеров, чтобы прояснить мою проблему. Я использую Python 2.7.11 (Anaconda 4.0.0, 64 бит). Данные У меня есть pandas DataFrame, содержащий много пар элементов пользователя. Этот DataFrame (назовем его initial_user_item_matrix ) имеет форму: […]

Объединяйте и суммируйте подмножество строк в кадре данных

У меня есть dataframe pandas, в котором хранятся диапазоны дат и некоторые связанные с ними столбцы: date_start date_end … lots of other columns … 1 2016-07-01 2016-07-02 2 2016-07-01 2016-07-03 3 2016-07-01 2016-07-04 4 2016-07-02 2016-07-07 5 2016-07-05 2016-07-06 и другой блок данных наблюдений Пикачу, проиндексированных по дате: pikachu_sightings date 2016-07-01 2 2016-07-02 4 2016-07-03 […]

Python - лучший язык программирования в мире.