Tag: pandas

преобразование данных в список

У меня есть Python dataFrame с несколькими столбцами. 2u 2s 4r 4n 4m 7h 7v 0 1 1 0 0 0 1 0 1 0 1 0 0 1 1 0 0 1 0 1 0 1 0 0 0 1 1 0 1 0 1 0 0 1 0 0 1 1 0 0 […]

Преобразование строк в float в DataFrame

Как скрывать столбец DataFrame, содержащий строки и значения NaN для плавания. И есть еще один столбец, значения которого являются строками и плаваниями; как преобразовать весь этот столбец в плавающие.

Как построить два столбца кадра данных pandas с помощью точек?

У меня есть кадр данных pandas и хотелось бы строить значения из одного столбца в сравнении с значениями из другого столбца. К счастью, существует метод построения привязки к кадрам данных, которые, как представляется, делают то, что мне нужно: df.plot(x='col_name_1', y='col_name_2') К сожалению, это похоже на стили сюжета (перечисленные здесь после параметра kind ), нет точек. […]

Правильный способ обратного pandas.DataFrame?

Вот мой код: import pandas as pd data = pd.DataFrame({'Odd':[1,3,5,6,7,9], 'Even':[0,2,4,6,8,10]}) for i in reversed(data): print(data['Odd'], data['Even']) Когда я запускаю этот код, я получаю следующую ошибку: Traceback (most recent call last): File "C:\Python33\lib\site-packages\pandas\core\generic.py", line 665, in _get_item_cache return cache[item] KeyError: 5 During handling of the above exception, another exception occurred: Traceback (most recent call last): […]

Python: Pandas Series – Зачем использовать loc?

Почему мы используем «loc» для pandas dataframes? кажется, что следующий код с использованием или без использования loc и компиляция anr run с симуляционной скоростью %timeit df_user1 = df.loc[df.user_id=='5561'] 100 loops, best of 3: 11.9 ms per loop или %timeit df_user1_noloc = df[df.user_id=='5561'] 100 loops, best of 3: 12 ms per loop Так зачем использовать loc? […]

использование pandas для выбора строк, обусловленных множественными эквивалентами

У меня есть pandas df, и я хотел бы выполнить что-то в этих строках (в терминах SQL): SELECT * FROM df WHERE column1 = 'a' OR column2 = 'b' OR column3 = 'c' etc… Теперь это работает для одной пары столбцов / значений: foo = df.ix[df['column']==value] Однако я не уверен, как расширить это до нескольких […]

Т-тест в Pandas (Python)

Если я хочу рассчитать среднее значение двух категорий в Pandas, я могу сделать это следующим образом: data = {'Category': ['cat2','cat1','cat2','cat1','cat2','cat1','cat2','cat1','cat1','cat1','cat2'], 'values': [1,2,3,1,2,3,1,2,3,5,1]} my_data = DataFrame(data) my_data.groupby('Category').mean() Category: values: cat1 2.666667 cat2 1.600000 У меня много данных, отформатированных таким образом, и теперь мне нужно сделать T- тест, чтобы узнать, являются ли средние значения cat1 и cat2 […]

Вычисление разностей в группах кадра данных

Скажем, у меня есть блок данных с тремя столбцами: Date, Ticker, Value (без индекса, по крайней мере, для начала). У меня много дат и много тикеров, но каждый (ticker, date) кортеж уникален. (Но, очевидно, одна и та же дата будет отображаться во многих строках, так как она будет доступна для нескольких тикеров, и один и […]

создание кадра данных pandas из нескольких файлов

Я пытаюсь создать pandas DataFrame и он отлично работает для одного файла. Если мне нужно построить его для нескольких файлов, которые имеют одинаковую структуру данных. Поэтому вместо одного имени файла у меня есть список имен файлов, из которых я хотел бы создать DataFrame . Не знаете, каким образом можно добавить к текущему DataFrame в DataFrame […]

PIP Install Numpy выдает ошибку «ascii-кодек не может декодировать байт 0xe2»

У меня недавно установлен Ubuntu на недавно построенном компьютере. Я просто установил python–pip, используя apt-get. Теперь, когда я пытаюсь выполнить команду install Numpy и Pandas, он дает следующую ошибку. Я видел эту ошибку, упомянутую в нескольких местах на SO и Google, но я не смог найти решение. Некоторые люди говорят, что это ошибка, некоторые потоки […]

Python - лучший язык программирования в мире.