Tag: pandas

Элементы процесса с одинаковым идентификатором

Пример CSV выглядит так: user_id lat lon 1 19.111841 72.910729 1 19.111342 72.908387 2 19.111542 72.907387 2 19.137815 72.914085 2 19.119677 72.905081 2 19.129677 72.905081 3 19.319677 72.905081 3 19.120217 72.907121 4 19.420217 72.807121 4 19.520217 73.307121 5 19.319677 72.905081 5 19.419677 72.805081 5 19.629677 72.705081 5 19.111860 72.911347 5 19.111860 72.931346 5 19.219677 72.605081 […]

Как перенести определенные столбцы в строки в pandas сопоставить другое значение столбца

Привет, я пытаюсь выполнить операцию транспозиции в pandas, но условие – это значение одного столбца, которое должно быть связано с транспонированными строками. Пример, приведенный ниже, объяснит лучший способ: данные выглядят так: A 1 2 3 4 51 52 53 54 B 11 22 23 24 71 72 73 74 Результат, который я пытаюсь сделать следующим […]

python pandas объединяет две или более строки текста в одну строку

У меня есть кадр данных с текстовыми данными, как показано ниже, name | address | number 1 Bob bob No.56 2 @gmail.com 3 Carly carly@world.com No.90 4 Gorge greg@yahoo 5 .com 6 No.100 и хотите сделать это как этот кадр. name | address | number 1 Bob bob@gmail.com No.56 2 Carly carly@world.com No.90 3 Gorge […]

Панды определяют начало, конец и дно рецессии на основе ВВП

Мой вопрос похож на следующий пост: Pandas: флаг последовательных значений s У меня есть следующий Pandas DataFrame: def get_recession_start(): '''Returns the year and quarter of the recession start time as a string value in a format such as 2005q3''' df1 = pd.read_excel('gdplev.xls', header=None, skiprows=220, index_col=0, names=['GDP'], parse_cols=[4,6]) df1.index.name = 'QTR' df1['DIFF'] = df1['GDP'].diff(1).apply(lambda x: np.where(x>=1, […]

Итерирование по DataFrames

Есть ли способ изменить DataFrame в for-loop? Например, вместо: df_train[df_train > 1] = 1 df_test[df_test > 1] = 1 что-то вроде: for frame in [df_train, df_test]: frame = frame[frame > 1] = 1 В этой версии исходные DataFrames не изменяются. Как я могу добиться этого с помощью цикла for?

Можно ли применить mapmap с помощью groupby в пандах?

В pandas Dataframe я хочу applymap(somefunction) с помощью groupby (используя некоторые значения индекса столбца). mcve_01.txt pos index M1 M2 F1_x 16230484 141 G/GG/GG 16230491 141 C/CC/CC 16230503 141 T/TT/TT 16230524 141 T/TT/TT 16230535 141 . . T 16232072 211 A/AA/AA 16232072 211 A/AA/AA 16229783 211 C/CC/CG 16229992 211 A/AA/AG 16230007 211 T/TT/TA 16230011 263 G/GG/GC […]

pandas dataframe to mysql db ошибка базы данных вкус mysql не поддерживается

У меня есть таблица в pandas dataframe df. product_id_x product_id_y count date 0 288472 288473 1 2016-11-08 04:02:07 1 288473 2933696 1 2016-11-08 04:02:07 2 288473 85694162 1 2016-11-08 04:02:07 Я хочу сохранить эту таблицу в базе данных mysql. Я использую пакет MySQLdb. import MySQLdb conn = MySQLdb.connect(host="xxx.xxx.xx.xx", user="name", passwd="pwd", db="dbname") df.to_sql(con = conn, name […]

Как отфильтровать значения из фрейма данных

Из данного кадра данных: df = ID TYPE VD_0 VD_1 VD_2 VD_3 VD_4 VD_5 Val_0 Val_1 Val_2 Val3 Val_4 Val_5 1 ABC V1234 aaa bbb 456 123 aaa 0 0 0 1 0 0 2 DBC 456 A45 aaa V1234 bbb 564 0 0 0 0 0 0 3 ABD V1234 V1234 bbb ccc 456 […]

как преобразовать несколько слоев вложенной json в таблицу sql

с помощью StackOverflow, я смог получить до сих пор это. Нужна еще одна помощь в преобразовании таблицы JSON в SQL. Любая помощь высоко ценится. { "Volumes": [{ "AvailabilityZone": "us-east-1a", "Attachments": [{ "AttachTime": "2013-12-18T22:35:00.000Z", "InstanceId": "i-1234567890abcdef0", "VolumeId": "vol-049df61146c4d7901", "State": "attached", "DeleteOnTermination": true, "Device": "/dev/sda1", "Tags": [{ "Value": "DBJanitor-Private", "Key": "Name" }, { "Value": "DBJanitor", "Key": "Owner" […]

Преобразование Spark Pandas df в S3

В настоящее время я использую Spark вместе с каркасом Pandas. Как я могу конвертировать Pandas Dataframe удобным способом, который можно записать на s3. Я пробовал вариант ниже, но я получаю ошибку, так как df – это dataframe Pandas, и у него нет опции записи. df.write() .format("com.databricks.spark.csv") .option("header", "true") .save("123.csv");

Python - лучший язык программирования в мире.