Tag: scikit learn

Почему GridSearchCV в scikit-learn порождает так много потоков

Вот вывод pstree моего текущего запуска GridSearch, мне любопытно посмотреть, какие процессы происходят, и я еще ничего не могу объяснить. ├─bash─┬─perl───20*[bash───python─┬─5*[python───31*[{python}]]] │ │ └─11*[{python}]] │ └─tee └─bash───pstree Я удалил материал, который не имеет отношения. Целые фигурные скобки означают потоки. Появление perl связано с тем, что я использовал parallel -j 20 для запуска моих заданий на […]

любой другой между оригинальным xgboost и sklearn XGBClassifier

Я использую интерфейс xgboots sklearn ниже для создания и обучения модели xgb-1. clf = xgb.XGBClassifier(n_estimators = 100, objective= 'binary:logistic',) clf.fit(x_train, y_train, early_stopping_rounds=10, eval_metric="auc", eval_set=[(x_valid, y_valid)]) И модель xgboost может быть создана по оригинальной xgboost как модель-2 ниже: param = {} param['objective'] = 'binary:logistic' param['eval_metric'] = "auc" num_rounds = 100 xgtrain = xgb.DMatrix(x_train, label=y_train) xgval = […]

Обнаружение объектов в изображениях (HOG)

Я хочу обнаружить объекты внутри клеток микроскопических изображений. У меня много аннотированных изображений (50 000 изображений с объектом и 500 000 без объекта). До сих пор я пытался извлекать функции с помощью HOG и классифицировать с использованием логистической регрессии и LinearSVC. Я попробовал несколько параметров для HOG или цветовых пространств (RGB, HSV, LAB), но я […]

Как обрабатывать категориальные переменные в sklearn GradientBoostingClassifier?

Я пытаюсь подготовить модели с помощью GradientBoostingClassifier с использованием категориальных переменных. Ниже приведен пример примитивного кода, просто для того, чтобы попытаться ввести категориальные переменные в GradientBoostingClassifier . from sklearn import datasets from sklearn.ensemble import GradientBoostingClassifier import pandas iris = datasets.load_iris() # Use only data for 2 classes. X = iris.data[(iris.target==0) | (iris.target==1)] Y = iris.target[(iris.target==0) […]

Использование категориальных данных в качестве функций в sklean LogisticRegression

Я пытаюсь понять, как использовать категориальные данные в качестве функций в sklearn.linear_model в sklearn.linear_model . Я понимаю, конечно, мне нужно его закодировать. Я не понимаю, как передать закодированную функцию в регрессию Logistic, поэтому она обрабатывается как категориальная функция, а не интерпретирует значение int, полученное при кодировании в качестве стандартной измеряемой функции. (Менее важно) Может ли […]

UserWarning: Label not: NUMBER: присутствует во всех примерах обучения

Я делаю многосегментную классификацию, где я пытаюсь предсказать правильные метки для каждого документа, и вот мой код: mlb = MultiLabelBinarizer() X = dataframe['body'].values y = mlb.fit_transform(dataframe['tag'].values) classifier = Pipeline([ ('vectorizer', CountVectorizer(lowercase=True, stop_words='english', max_df = 0.8, min_df = 10)), ('tfidf', TfidfTransformer()), ('clf', OneVsRestClassifier(LinearSVC()))]) predicted = cross_val_predict(classifier, X, y) При запуске моего кода я получаю несколько предупреждений: […]

Уменьшение размеров с помощью t-SNE

У меня есть два набора данных и тест. Два набора данных имеют 30213 и 30235 элементов соответственно с 66 размерами каждый. Я пытаюсь применить t-SNE scikit, чтобы уменьшить размер до 2. Поскольку наборы данных большие, и я получаю MemoryError, если я пытаюсь обработать все данные за один снимок, я пытаюсь разбить их на куски и […]

Масштабирование данных в scikit-learn SVM

Хотя libsvm предоставляет инструменты для масштабирования данных, Scikit-Learn (который должен основываться на libSVM для классификатора SVC), я не нахожу способ масштабировать свои данные. В основном я хочу использовать 4 функции, из которых 3 варьируются от 0 до 1, а последний – «большой» сильно изменяемый номер. Если я включу четвертую функцию в libSVM (используя скрипт easy.py, […]

scikit learn: желаемое количество лучших функций (k) не выбрано

Я пытаюсь выбрать лучшие функции, используя chi-square (scikit-learn 0.10). Из всего 80 учебных документов я сначала извлекаю 227 функцию, и из этих 227 функций я хочу выбрать 10 лучших. my_vectorizer = CountVectorizer(analyzer=MyAnalyzer()) X_train = my_vectorizer.fit_transform(train_data) X_test = my_vectorizer.transform(test_data) Y_train = np.array(train_labels) Y_test = np.array(test_labels) X_train = np.clip(X_train.toarray(), 0, 1) X_test = np.clip(X_test.toarray(), 0, 1) ch2 […]

Как я могу построить функцию плотности вероятности для установленной модели гауссовой смеси при изучении scikit?

Я борюсь с довольно простой задачей. У меня есть вектор поплавков, к которому я хотел бы подгонять модель смеси Гаусса с двумя гауссовыми ядрами: from sklearn.mixture import GMM gmm = GMM(n_components=2) gmm.fit(values) # values is numpy vector of floats Теперь я хотел бы построить функцию плотности вероятности для модели смеси, которую я создал, но я […]

 
Interesting Posts for Van-Lav
Python - лучший язык программирования в мире.