Однострочный Python для извлечения поля

Входные данные: $ ./ffmpeg -i test020.3gp ffmpeg version UNKNOWN, Copyright (c) 2000-2011 the FFmpeg developers built on May 5 2011 14:30:25 with gcc 4.4.3 configuration: libavutil 51. 2. 0 / 51. 2. 0 libavcodec 53. 3. 0 / 53. 3. 0 libavformat 53. 0. 3 / 53. 0. 3 libavdevice 53. 0. 0 / 53. […]

Специализация конструктора в python

Иерархии классов и конструкторы связаны между собой. Параметры из дочернего класса должны быть переданы их родителям. Итак, в Python мы получим что-то вроде этого: class Parent(object): def __init__(self, a, b, c, ka=None, kb=None, kc=None): # do something with a, b, c, ka, kb, kc class Child(Parent): def __init__(self, a, b, c, d, e, f, ka=None, […]

Найти значение поля ввода в html doc с помощью python

Я пытаюсь получить входные значения из документа HTML и хочу разобрать значения скрытых полей ввода. Например, как я могу разобрать только значение из фрагмента ниже, используя python. <input type="hidden" autocomplete="off" id="post_form_id" name="post_form_id" value="d619a1eb3becdc05a3ebea530396782f" /> <input type="hidden" name="fb_dtsg" value="AQCYsohu" autocomplete="off" /> И вывод функции python должен возвращать что-то вроде: post_form_id : d619a1eb3becdc05a3ebea530396782f fb_dtsg : AQCYsohu

создание hexbin в matplotlib python заполняет пустое пространство на квадратной оси?

Я пытаюсь использовать hexbin для построения некоторых данных по квадратной оси. Я использую следующее: import matplotlib.cm as cm plt.figure() num_pts = 1000 x = rand(num_pts) * 100 y = rand(num_pts) * 250 x_min = 0 x_max = 150 x_step = 25 y_min = 50 y_max = 300 y_step = 50 s = plt.subplot(1,1,1) plt.hexbin(x,y,cmap=cm.jet,gridsize=20) plt.xticks(range(x_min,x_max+x_step,x_step)) […]

Как подсчитать значения nan в pandas DataFrame?

Каков наилучший способ учета (не числа) значений nan в pandas DataFrame? Следующий код: import numpy as np import pandas as pd dfd = pd.DataFrame([1, np.nan, 3, 3, 3, np.nan], columns=['a']) dfv = dfd.a.value_counts().sort_index() print("nan: %d" % dfv[np.nan].sum()) print("1: %d" % dfv[1].sum()) print("3: %d" % dfv[3].sum()) print("total: %d" % dfv[:].sum()) Выходы: nan: 0 1: 1 3: […]

Почему массив numpy с dtype = object приводит к значительно меньшему размеру файла, чем dtype = int?

Вот пример: import numpy as np randoms = np.random.randint(0, 20, 10000000) a = randoms.astype(np.int) b = randoms.astype(np.object) np.save('d:/dtype=int.npy', a) #39 mb np.save('d:/dtype=object.npy', b) #19 mb! Вы можете видеть, что файл с dtype = object примерно в два раза меньше. Как так? У меня создалось впечатление, что правильно определенные numpy dtypes строго лучше, чем объекты dtypes.

Как разделить строку, используя 2 разделенных параметра?

Пример: r="\\%4l\\%(wit.*wit\\)\\|\\%8l\\%(rood.*rood\\)\\|\\%12l\\%(blauw.*blauw\\)\\|\\%13l\\%(wit.*wit\\)\\|\\%14l\\%(blauw.*blauw\\)\\|\\%15l\\%(wit.*wit\\)\\|\\%16l\\%(wit.*wit\\)\\|\\%17l\\%(rood.*rood\\)\\|\\%19l\\%(wit.*wit\\)\\|\\%21l\\%(blauw.*blauw\\)" Я хочу разбить строку на список, но не используя 1 параметр, а 2 параметра. Сначала я хочу зафиксировать число до l\\%( Во-вторых, я хочу захватить текст между \\%( и \\)\\| или в случае окончания строки между \\%( и \\)$ Вывод: [[4, "wit.*wit"], [8, "rood.*rood"], [12, "blauw.*blauw"], [13, "wit.*wit"], [14, "blauw.*blauw"], [15, "wit.*wit"], [16,"wit.*wit"], […]

Получение имени модуля: x .__ module__ vs x .__ class __.__ module__

Я хочу получить модуль, из которого происходит объект Python. И то и другое x.__module__ а также x.__class__.__module__ похоже, работают. Являются ли они полностью избыточными? Есть ли какая-то причина предпочитать одну над другой?

логическая операция с группой в пандах

Я хотел бы использовать pandas.groupby определенным образом. Учитывая DataFrame с двумя булевыми столбцами (назовем их col1 и col2 ) и столбцом id, я хочу добавить столбец следующим образом: для каждой записи, если ( col2 – True) и ( col1 – True для любой из записей с одинаковым идентификатором), то назначьте True. В противном случае False. […]

Случайный лес с GridSearchCV – Ошибка в param_grid

Я пытаюсь создать модель Random Forest с помощью GridSearchCV, но получаю сообщение об ошибке param_grid: «ValueError: недопустимый параметр max_features для контрольного трубопровода. Посмотрите список доступных параметров с помощью` valuator.get_params (). Keys () " . Я классифицирую документы, поэтому я также подталкиваю tf-idf vectorizer к конвейеру. Вот код: from sklearn import metrics from sklearn.ensemble import RandomForestClassifier […]

Python - лучший язык программирования в мире.