Tag: scikit learn

sci-kit узнает ошибку агломерационной кластеризации

Я пытаюсь сделать агломеративную кластеризацию с помощью sklearn. На этапе установки я получаю эту ошибку. Ошибка не появляется все время, если я изменяю количество точек данных, тогда я не могу получить ошибку и агломеративную кластеризацию. Я не слишком уверен, как отлаживать это. Я убедился, что в моем массиве данных уже нет значений NaN с помощью […]

Как установить пользовательские стоп-слова для sklearn CountVectorizer?

Я пытаюсь запустить LDA (Latent Dirichlet Allocation) в текстовом наборе данных, отличном от английского. Из учебника sklearn есть эта часть, где вы подсчитываете частоту слов слов для подачи в LDA: tf_vectorizer = CountVectorizer(max_df=0.95, min_df=2, max_features=n_features, stop_words='english') У меня есть встроенная функция стоп-слов, которая доступна только для английского языка. Как я могу использовать свой собственный список […]

Итерация по нескольким столбцам в Pandas DF и динамическая резка

TLDR: как выполнить итерацию по всем параметрам нескольких столбцов в кадре данных pandas без указания столбцов или их значений в явном виде? Длинная версия: у меня есть рамка данных pandas, которая выглядит так: только она имеет намного больше возможностей или комбинаций лекарственной дозы, чем здесь. Вместо трех типов функций у него могло бы быть что-то […]

как работает adaboost sklearn pred_proba внутри?

Я использую sklearn's 'pred_proba ()' для прогнозирования вероятности выборки, принадлежащей категории для каждой оценки в классификаторе Adaboost. from sklearn.ensemble import AdaBoostClassifier clf = AdaBoostClassifier(n_estimators=50) for estimator in clf.estimators_: print estimator.predict_proba(X_test) Adaboost реализует свой pred_proba () следующим образом: https://github.com/scikit-learn/scikit-learn/blob/bb39b49/sklearn/ensemble/weight_boosting.py#L733 DecisionTreeClassifier – базовая оценка sklearn для классификатора Adaboost. DecisionTreeClassifier реализует свой pred_proba () следующим образом: https://github.com/scikit-learn/scikit-learn/blob/bb39b49/sklearn/tree/tree.py#L549 Кто-нибудь […]

Как получить n_estimator и max_features минимальной ошибки OOB и использовать их для оптимизации?

Я хочу оптимизировать классификатор случайного леса. Итак, я построил ошибку OOB (код доступен в scikit). Из этого графика я хочу выбрать две переменные (n_estimators и max_features), которые дают самую низкую ошибку OOB. А затем используйте их для оптимизации классификатора (clf.fit). Из кривой видно, что с 170 n_estimators и 5 max_features я получаю самый низкий OOB. […]

Scikit-learn (sklearn) PCA бросает Type Error на разреженную матрицу

Из документации Sklearn RandomizedPCA разрешенные матрицы принимаются в качестве входных данных. Однако, когда я назвал его с разреженной матрицей, я получил TypeError : > sklearn.__version__ '0.16.1' > pca = RandomizedPCA(n_components=2) > pca.fit(my_sparce_mat) TypeError: A sparse matrix was passed, but dense data is required. Use X.toarray() to convert to a dense numpy array. Я получил ту […]

ValueError: массив не должен содержать inf или NaN во время Biclustering

Я пытаюсь моделировать biclustering, но он терпит неудачу, поскольку он говорит, что массив содержит infs и nans , хотя я сканировал массив, используя pd.isnull(DataFile).sum() import pandas as pd import numpy as np from matplotlib import pyplot as plt from sklearn.datasets import samples_generator as sg from sklearn.cluster.bicluster import SpectralCoclustering from sklearn.metrics import consensus_score DataFile=pd.read_csv("DatafilledProp.csv",sep='\t') DataFile.drop(DataFile.columns[[0, 1]], […]

Маска sklearn для onehotencoder не работает

Учитывая такие данные, как: from sklearn.preprocessing import OneHotEncoder import numpy as np dt = 'object, i4, i4' d = np.array([('aaa', 1, 1), ('bbb', 2, 2)], dtype=dt) Я хочу исключить текстовый столбец, используя функциональность OHE. Почему следующее не работает? ohe = OneHotEncoder(categorical_features=np.array([False,True,True], dtype=bool)) ohe.fit(d) ValueError: could not convert string to float: 'bbb' В документации говорится: categorical_features: […]

Наложение векторов на питон для классификации

В настоящее время я пытаюсь создать модель классификации текста (классификация документов) с примерно 80 классами. Когда я создаю и тренирую модель с использованием случайного леса (после векторизации текста в матрицу TF-IDF), модель работает хорошо. Однако, когда я вводил новые данные, те же слова, которые я использовал для создания моего радиочастотного сигнала, не обязательно идентичны учебному […]

Как получить доступ к Scikit Узнать вложенные оценки перекрестной проверки

Я использую python, и я хотел бы использовать вложенную перекрестную проверку с помощью scikit. Я нашел очень хороший пример : NUM_TRIALS = 30 non_nested_scores = np.zeros(NUM_TRIALS) nested_scores = np.zeros(NUM_TRIALS) # Choose cross-validation techniques for the inner and outer loops, # independently of the dataset. # Eg "LabelKFold", "LeaveOneOut", "LeaveOneLabelOut", etc. inner_cv = KFold(n_splits=4, shuffle=True, random_state=i) […]

Python - лучший язык программирования в мире.