Tag: pandas

является Dataframe.toPandas всегда на узле драйвера или на рабочих узлах?

Представьте, что вы загружаете большой набор данных с помощью SparkContext и Hive. Таким образом, этот набор данных затем распространяется в вашем Spark-кластере. Например, наблюдения (значения + временные метки) для тысяч переменных. Теперь вы можете использовать некоторые методы / агрегирования карт / сокращений для организации / анализа ваших данных. Например, группировка по имени переменной. После сгруппировки […]

Корреляция DataFrame дает NaN, хотя его значения являются целыми числами

У меня есть dataframe df : df = pandas.DataFrame(pd.read_csv(loggerfile, header = 2)) values = df.as_matrix() df2 = pd.DataFrame.from_records(values, index = datetimeIdx, columns = Columns) РЕДАКТИРОВАТЬ: Теперь читаем данные таким образом, как это было предложено: df2 = pd.read_csv(loggerfile, header = None, skiprows = [0,1,2]) Образец: 0 1 2 3 4 5 6 7 8 \ 0 […]

Почему pandas groupby cut дает разную форму вывода с одним входным сигналом?

У меня возникают проблемы с pandas (v0.11 или v0.12) groupby code, возвращающим другую структуру вывода, когда мои входные ряды имеют ровно одну запись. Я использую фиксированный набор ящиков и подсчитываю количество вхождений в каждом ковше на основе кода, подобного приведенному ниже. s0 = pd.Series([1,2,1,3,1,4,1,2,1], name='foo') s = s0 #s = s0[:0] #s = s0[:1] #s […]

Создание данных из уникальных пар значений путем фильтрации по нескольким столбцам

Я хочу фильтровать значения в нескольких столбцах, создавая dataframes для уникальных комбинаций значений. Любая помощь будет оценена по достоинству. Вот мой код, который терпит неудачу (данный dataframe df): dd = defaultdict(dict) #create blank default dictionary values_col1 = df.col1.unique() #get the unique values from column 1 of df for i in values_col1: dd[i] = df[(df['col1']==i)] #for […]

Как выполнить LINQ ThenBy в пандах?

У меня есть простые данные: type age A 4 A 4 B 4 A 5 я хочу получить type age count A 4 2 A 5 1 B 4 1 Как выполнить такую ​​вещь в панде: какую оболочку я делаю после df.groupby(['type']) ?

Почему .loc работает с целыми позициями индекса?

В документации pandas .loc четко указано: .loc строго основан на ярлыках, поднимет KeyError, когда элементы не будут найдены, допустимыми входами являются: Единая метка, например 5 или «a» (обратите внимание, что 5 интерпретируется как метка индекса. Это использование не является целочисленной позицией по индексу) Вопреки этому, это удивительно работает для pd.Series , а не для pd.DataFrame: […]

Сортировка и размещение списка с использованием панд

У меня есть входной файл, как показано ниже, который должен быть упорядочен в таком порядке, чтобы значения ключей должны были быть в порядке возрастания, а ключи, которые не присутствуют, должны быть напечатаны последним. Я получаю данные в нужном формате, но порядок отсутствует. Я пробовал использовать метод sort (), но он показывает, что «список не имеет […]

используя сложные условия для формирования кадра данных панд из существующего

У меня есть следующий файл данных, содержащий имена функций, их аргументы, значения по умолчанию для аргументов и типов аргументов: FULL_NAME ARGUMENT DEF_VALS TYPE 'function1' 'f1_arg1' NAN 'NoneType' 'function1' 'f1_arg2' NAN NAN 'function1' 'f1_arg3' NAN NAN 'function2' 'f2_arg1' 0 'int' 'function3' 'f3_arg1' True 'bool' 'function3' 'f3_arg2' 'something' 'str' Этот информационный кадр можно воспроизвести следующим образом: import […]

Условно заполняемые элементы в объекте pandas groupby – векторное решение с использованием numpy? Является ли групповой подход неправильным?

Хорошо, данные и логика такие же, как в этом вопросе, который я задал несколько дней назад. Но я хочу, чтобы вы ответили на него определенным образом, о котором я не упомянул в первой – numpy vectorization . Кроме того, у меня есть еще один вопрос о доверии groupby – apply . Я не хочу, чтобы […]

использование pandas read_csv с отсутствующими данными

Я пытаюсь прочитать файл csv, где в некоторых строках могут отсутствовать фрагменты данных. По-видимому, это вызывает проблему с функцией pandas read_csv, когда вы указываете dtype. Проблема заключается в том, что для преобразования из str в значение, заданное dtype, pandas просто пытается выполнить его напрямую. Поэтому, если что-то не хватает, все ломается. Далее следует MWE (этот […]

Python - лучший язык программирования в мире.