Tag: scikit learn

Случайный лес с GridSearchCV – Ошибка в param_grid

Я пытаюсь создать модель Random Forest с помощью GridSearchCV, но получаю сообщение об ошибке param_grid: «ValueError: недопустимый параметр max_features для контрольного трубопровода. Посмотрите список доступных параметров с помощью` valuator.get_params (). Keys () " . Я классифицирую документы, поэтому я также подталкиваю tf-idf vectorizer к конвейеру. Вот код: from sklearn import metrics from sklearn.ensemble import RandomForestClassifier […]

Наивная вероятность Байеса всегда 1

Я начал использовать sklearn.naive_bayes.GaussianNB для классификации текста и получал прекрасные начальные результаты. Я хочу использовать вероятность, возвращаемую классификатором, как меру доверия, но метод predict_proba () всегда возвращает «1.0» для выбранного класса и «0.0» для всех остальных. Я знаю ( отсюда ), что «… вероятность выхода из прогноза_проба не воспринимается слишком серьезно», но до такой степени […]

Прогнозирование с помощью временных рядов в python

Мне нужна помощь от вас, ребята. Я действительно хочу предсказать следующие значения переменной Y (c_start), когда X (день) представляет время. Как вы можете видеть на картинке, у меня есть значения для атрибута «c_start», и я хотел бы предсказать следующие значения «c_start» в течение следующих 7 дней (например). Может кто-нибудь мне помочь? Thx ребята!

Python: Sklearn.linear_model.LinearRegression работает странно

Я пытаюсь сделать несколько переменных линейной регрессии. Но я считаю, что sklearn.linear_model работает очень странно. Вот мой код: import numpy as np from sklearn import linear_model b = np.array([3,5,7]).transpose() ## the right answer I am expecting x = np.array([[1,6,9], ## 1*3 + 6*5 + 7*9 = 96 [2,7,7], ## 2*3 + 7*5 + 7*7 = […]

sklearn: иметь оценку, которая фильтрует выборки

Я пытаюсь реализовать собственный Imputer. При определенных условиях я хотел бы отфильтровать некоторые образцы поездов (что я считаю низким качеством). Однако, поскольку метод transform возвращает только X а не y , а сам y является массивом numpy (который я не могу фильтровать на месте, насколько мне известно), и более того – когда я использую GridSearchCV […]

Как игнорировать точку данных NaN в массиве numpy и генерировать нормализованные данные в Python?

Скажем, у меня есть массив numpy, у которого есть некоторый float ('nan'), я не хочу сейчас вводить эти данные, и я хочу сначала нормализовать их и сохранить данные NaN в исходном пространстве, есть ли способ, который я могу сделать что? Раньше я использовал normalize функции в sklearn.Preprocessing , но эта функция кажется, не может взять […]

Поиск сетки Scikit-learn с регрессией SVM

Я изучаю перекрестный поиск в сетке и нахожусь в этом плейлисте youtube, и учебник также был загружен в github в качестве ноутбука ipython. Я пытаюсь воссоздать коды в разделе « Поиск нескольких параметров одновременно », но вместо использования knn я использую регрессию SVM. Это мой код from sklearn.datasets import load_iris from sklearn import svm from […]

Регрессия ScikitLearn: матрица проектирования X слишком велика для регрессии. Что я делаю?

У меня есть матрица X которая имеет примерно 7000 столбцов и 38000 строк. Таким образом, это numpy array с (38000, 7000) . Я создал экземпляр модели model = RidgeCV(alphas = (0.001,0.01, 0.1, 1) и затем приспособил его model.fit(X, y) где y – вектор отклика, который представляет собой матрицу с размером (38000,) . Запустив это, я […]

Рассчитать sklearn.roc_auc_score для мультикласса

Я хотел бы вычислить AUC, точность, точность для моего классификатора. Я занимаюсь контролируемым обучением: Вот мой рабочий код. Этот код отлично работает для двоичного класса, но не для нескольких классов. Предположим, что у вас есть dataframe с двоичными классами: sample_features_dataframe = self._get_sample_features_dataframe() labeled_sample_features_dataframe = retrieve_labeled_sample_dataframe(sample_features_dataframe) labeled_sample_features_dataframe, binary_class_series, multi_class_series = self._prepare_dataframe_for_learning(labeled_sample_features_dataframe) k = 10 k_folds = […]

поддерживает ли scikit-lean решение дерева неупорядоченные («enum») функции многоклассов?

Из документации видно, что DecisionTreeClassifier поддерживает функции многоклассов DecisionTreeClassifier может быть как двоичным (где метки являются [-1, 1]), так и многоклассовыми (где метки являются [0, …, K-1]). Но, похоже, что правило принятия в каждом узле основано на «больше, чем», Я пытаюсь построить деревья с элементами enum (где нет смысла для абсолютного значения каждой функции – […]

Python - лучший язык программирования в мире.