Tag: pandas

Выполнить функцию ровно один раз для каждой строки в кадре данных Pandas

Если у меня есть функция def do_irreversible_thing(a, b): print a, b И информационный кадр, скажем, df = pd.DataFrame([(0, 1), (2, 3), (4, 5)], columns=['a', 'b']) Каков наилучший способ запустить функцию ровно один раз для каждой строки в кадре данных pandas. Как указывалось в других вопросах , что-то вроде df.apply pandas вызовет функцию дважды для первой […]

map pandas Таблицы Dataframe для значений словаря

У меня есть словарь: много. Я хотел бы сопоставить значения столбца Dataframe pandas с ключами (NOT values) словаря. вот мой словарь: dict1={'fruits':('apple','grapes','oranges'),'food':('fish','meat','fibre')} И вот объект панды Серия: df=pd.Series(['fish','apple','meat']) нужный результат я хочу: 0 food 1 fruits 2 food dtype: object

python pandas read_csv не может прочитать символ двойного кавычки дважды

Я пытаюсь создать файл csv с двумя столбцами (error.csv) с разделителем с разделителем по полу, который содержит двойные кавычки: col1;col2 2016-04-17_22:34:25.126;"Linux; Android" 2016-04-17_22:34:25.260;"{"g":2}iPhone; iPhone" И я пытаюсь: logs = pd.read_csv('error.csv', na_values="null", sep=';', quotechar='"', quoting=0) Я понимаю, что проблема связана с двойным кавычкой «g» внутри моих двойных кавычек в строке 3, но я не могу понять, […]

Вложенный словарь именованных вершин в pandas dataframe

Я назвал tuples следующим образом: In[37]: from collections import namedtuple Point = namedtuple('Point', 'x y') Вложенный словарь имеет следующий формат: In[38]: d Out[38]: {1: {None: {1: Point(x=1.0, y=5.0), 2: Point(x=4.0, y=8.0)}}, 2: {None: {1: Point(x=45324.0, y=24338.0), 2: Point(x=45.0, y=38.0)}}} Я пытаюсь создать рамку данных pandas из словаря d без необходимости делать для циклов. Мне удалось […]

Numpy .shuffle дает одинаковые результаты каждый раз

Я пытаюсь взять pandas DataFrame, вынуть 1 столбец, перетасовать содержимое этого столбца, затем поместить его обратно в DataFrame и вернуть его. Это используемый код: def randomize(self, data, column): '''Takes in a pandas database and randomizes the values in column. data is the pandas dataframe to be altered. column is the column in the dataframe to […]

pandas qcut не помещает равное количество наблюдений в каждую ячейку

У меня есть кадр данных, из которого я могу выбрать столбец (ряд) следующим образом: ДФ: value_rank 275488 90 275490 35 275491 60 275492 23 275493 23 275494 34 275495 75 275496 40 275497 69 275498 14 275499 83 … … value_rank – это ранее созданный ранговик процентиля из большего набора данных. То, что я пытаюсь […]

Расширение среднего значения сгруппировано по нескольким столбцам в пандах

У меня есть фреймворк данных, который я бы хотел рассчитать, увеличивая среднее значение по одному столбцу (quiz_score), но вам нужно группировать два разных столбца (userid и week). Данные выглядят так: data = {"userid": ['1','1','1','1','1','1','1','1', '2','2','2','2','2','2','2','2'],\ "week": [1,1,2,2,3,3,4,4, 1,2,2,3,3,4,4,5],\ "quiz_score": [12, 14, 14, 15, 9, 15, 11, 14, 15, 14, 15, 13, 15, 10, 14, 14]} […]

Максимальное значение Python Pandas в группе как новый столбец

Я пытаюсь вычислить новый столбец, который содержит максимальные значения для каждой из нескольких групп. Я исхожу из фона Stata, поэтому я знаю, что код Stata будет примерно таким: by group, sort: egen max = max(odds) Например: data = {'group' : ['A', 'A', 'B','B'], 'odds' : [85, 75, 60, 65]} Тогда я хотел бы, чтобы это […]

Ошибка сравнения типа Pandas

По какой-то причине, которую я не могу найти в Pandas changelog для 0.17.1, сравнение серии datetime со значением int (Unix epoch) больше не работает. Может ли кто-нибудь объяснить это или указать мне в нужную секцию в журнале изменений? Работа в 0.16.2 >>> import pandas as pd >>> import datetime >>> d = pd.Series([datetime.datetime(2016, 1, 1), […]

Быстрый доступ / запрос большого текстового файла с разделителями в python

После некоторого времени поиска я нашел много связанных вопросов / ответов на эту проблему, но ничего, что действительно касается того, что я ищу. В принципе, я внедряю код в python, чтобы иметь возможность запрашивать информацию из звездного каталога (в частности, каталог tycho 2 звезды). Эти данные хранятся в довольно большом текстовом файле (~ 0,5 гигабайта), […]

Python - лучший язык программирования в мире.