Tag: pandas

Преобразование столбцов данных Pandas в столбцы R

Я пытаюсь преобразовать столбец в dataframe pandas в фактор, потому что функция, которую я пытаюсь вызвать в R, ожидает факторов. pandas2ri.activate() #second column of labels has to be converted to factors labels = read_csv(path_to_csv) as_factor = ro.r['as.factor'] output = package.function(another_df, as_factor(labels['column_name'])) Ниже приведена ошибка: rpy2.rinterface.RRuntimeError: Error in sort.list(y) : 'x' must be atomic for 'sort.list' […]

ValueError: невозможно скопировать последовательность с размером 821 на ось массива с размером 7

Поэтому я подал данные тестирования, но когда я пытаюсь проверить его с помощью clf.predict (), он просто дает мне ошибку. Поэтому я хочу, чтобы он предсказал данные, которые я даю, что является последней ценой закрытия, скользящими средними. Однако каждый раз, когда я пытаюсь что-то, это просто дает мне ошибку. Также есть лучший способ сделать это, […]

multindex dataframe для сводной таблицы с новым столбцом

У меня есть кадр данных с multindex, я хочу преобразовать его в сводную таблицу, суммировать по столбцам, данные: import random import pandas as pd arrays = [[2,2,3,3,3,4,4,4,4,5,5,7,7], [1,2,1,2,3,1,2,3,4,1,3,1,4]] tuples = list(zip(*arrays)) index = pd.MultiIndex.from_tuples(tuples, names = ['first','second']) data = pd.Series(random.sample(range(1,100),13), index = index) data first second 2 1 28 2 20 3 1 7 2 […]

Возвращать данные из URL-адреса с помощью Python

Я хочу прочитать данные о запасах в кадре данных pandas. Этот вопрос примерно соответствует тому, что я хочу сделать, но он рекомендует веб-соскабливание. Я не хочу полагаться на веб-соскабливание, чтобы получить мои данные, поскольку мне может потребоваться переписать мой скребок, если сайт будет изменен. Как я могу получить данные с этого сайта в рамку данных […]

Панды: Эффективное разделение строки на несколько строк

Проблема, с которой я в настоящее время сталкиваюсь, заключается в использовании pandas DataFrame и эффективной записи каждой записи и разбивке на несколько записей следующим образом: Входные данные: In [16]: pd.DataFrame({'Name': 'Person1', 'State': 'Indiana', 'Money1': 100.42, 'Money2':54.54, 'Money3': 23.45}, index=[1]) Out[16]: Money1 Money2 Money3 Name State 1 100.42 54.54 23.45 Person1 Indiana Вывод: Money1 Money2 Money3 […]

Как я могу сортировать данные в строке, а не в столбце?

У меня есть dataframe Albania Andorra Armenia Austria Azerbaijan 2014 98.0 96.0 97.0 96.0 98.0 2013 99.0 95.0 97.0 96.0 98.0 2012 98.0 98.0 97.0 95.5 97.0 2011 99.0 99.0 97.0 96.0 98.0 2010 99.0 99.0 97.0 96.0 98.0 и я хотел бы отсортировать столбцы в строке 2014 . Таким образом, в результате сортировка должна […]

Создание корпуса из разных файлов JSON

Я хотел бы создать корпус, составленный телом разных статей, хранящихся в формате JSON. Они находятся в разных файлах, названных в честь года, например: with open('Scot_2005.json') as f: data = [json.loads(line) for line in f] соответствует газете «Шотландец» за 2005 год. Более того, остальные файлы для этой газеты называются: APJ_2006 …. APJ2015 . Также. У меня […]

использование Pandas для чтения в excel-файле по URL-адресу – XLRDError

Я пытаюсь читать в файлах Excel в Pandas по следующим URL-адресам: url1 = 'https://cib.societegenerale.com/fileadmin/indices_feeds/CTA_Historical.xls' url2 = 'https://cib.societegenerale.com/fileadmin/indices_feeds/STTI_Historical.xls' используя код: pd.read_excel(url1) Однако это не работает, и я получаю сообщение об ошибке: XLRDError: Unsupported format, or corrupt file: Expected BOF record; found '2000/01/' После поиска в Google кажется, что иногда файлы .xls, предлагаемые через URL-адреса, фактически хранятся […]

Добавление двух временных столбцов в рамке данных pandas?

У меня есть следующие данные: time_begin DRTN_IN_SCND 16:22:16 439 16:29:37 53 16:30:33 85 Я хотел бы создать новый столбец, который добавит time_begin и DRTN_IN_SCND (продолжительность в секундах), чтобы создать новое время. Я пытался: df['new_time'] = df['time_begin'].apply(lambda x: (dt.datetime.combine(dt.datetime(1,1,1), x,) + dt.timedelta(seconds=df.DRTN_IN_SCND)).time()) Это работает, если dt.timedelta (seconds = 3), но не работает, когда я изменяюсь на […]

упорядоченная серия Dict vs pandas

Еще новичок в этом, извините, если я спрошу что-то действительно глупое. В чем разница между заказываемым в Python словарем и серией панд? Единственное отличие, о котором я мог думать, это то, что у заказанногоDict могут быть вложенные словари внутри данных. Это все? Это правда? Будет ли разница в производительности между использованием одного и другого? Мой […]

Python - лучший язык программирования в мире.