Tag: scikit learn

Есть ли хорошие иерархические кластерные пакеты в python, которые занимают матрицу расстояний?

У меня есть матрица расстояний, состоящая из расстояния по левому краю. Я использовал scikits-learn. Но иерархический алгоритм кластеризации не принимает матрицу расстояний в качестве входа для кластеризации. Я должен искать новый пакет, который может это сделать. Существуют ли быстрые и хорошо протестированные пакеты, которые вы использовали для иерархической кластеризации?

используя RandomForestClassifier.predict_proba vs RandomForestRegressor.predict

У меня есть набор данных, содержащий вектор признаков, а цель – 1.0 или 0.0 (представляющая два класса). Если я вписываю RandomForestRegressor и вызываю его функцию predict , эквивалентно ли это использованию RandomForestClassifier.predict_proba() ? Другими словами, если цель равна 1.0 или 0.0, вероятность выхода RandomForestRegressor ? Я так думаю, и результаты, которые я предлагаю, так, но […]

Возможности Hstacking каким-то образом приводят к дополнительному замедлению прогнозирования

Когда я использую scipy.sparse.hstack некоторых разреженных матриц, созданных CountVectorizer и т. П., И я хочу объединить их для использования в регрессии, но почему-то они медленнее: X1 имеет 10000 функций из анализа = "char" X2 имеет 10000 функций из анализа = "слово" X3 имеет 20000 функций из анализа = "char" X4 имеет 20000 функций из анализа […]

Как сделать эту оценку scikit-learn-compatible?

Я пытаюсь сделать эту оценку scikit-learn-совместимой, чтобы я мог искать пространство параметров с помощью GridSearchCV. РЕДАКТИРОВАТЬ: Я изменил сценарий, как было предложено (см. Ниже). подстрочная подпись модифицируется для fit(self, X, y) Все параметры передаются в __init__ По-прежнему существует проблема совместимости с GripdSearchCV, возможно потому, что оценщик является многоклассовым классификатором. ValueError: Can't handle mix of multilabel-indicator […]

Низкая производительность SVM по сравнению с Random Forest

Я использую библиотеку scikit-learn для python для проблемы классификации. Я использовал RandomForestClassifier и SVM (класс SVC). Однако, в то время как ВЧ достигает около 66% точности и 68% напоминают, SVM получает только до 45%. Я выполнил GridSearch для параметров C и gamma для rbf-SVM, а также рассмотрел масштабирование и нормализацию заранее. Однако я думаю, что […]

sckit-learn fit () приводит к ошибке после нормализации данных

Я пытался это сделать: Создание объектов X и y, зависящих от набора данных Разделить набор данных Нормализовать данные Поезд с использованием SVR из Scikit-learn Вот код с использованием кадра данных pandas, заполненного случайными значениями import pandas as pd import numpy as np df = pd.DataFrame(np.random.rand(20,5), columns=["A","B","C","D", "E"]) a = list(df.columns.values) a.remove("A") X = df[a] y […]

GridSearch для классификации с несколькими метками в Scikit-learn

Я пытаюсь сделать GridSearch для лучших гиперпараметров в каждой отдельной проверке перекрестной проверки в десять раз, он отлично работал с моей предыдущей многоклассовой классификационной работой, но не на этот раз с многозадачной работой. X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33) clf = OneVsRestClassifier(LinearSVC()) C_range = 10.0 ** np.arange(-2, 9) param_grid = dict(estimator__clf__C = C_range) […]

Как создать матрицу дизайна взаимодействия из категориальных переменных?

Я работаю в основном в R для статистического моделирования / машинного обучения и хочу улучшить свои навыки в Python. Мне интересно, как наилучшим образом создать матрицу дизайна категориальных взаимодействий (в произвольной степени) в python. Пример игрушки: import pandas as pd from urllib import urlopen page = urlopen("http://www.shatterline.com/MachineLearning/data/tennis_anyone.csv") df = pd.read_csv(page) df.head(n=5) Допустим, мы хотим создать […]

Ошибка Python в SVM classifier.predict ()

Я получаю следующую ошибку, когда выполняю классификацию новых данных со следующей командой в Python: classifier.predict(new_data) AttributeError: объект python 'SVC' не имеет атрибута _dual_coef_ В моем ноутбуке, хотя, команда работает отлично! Что не так?

sklearn PCA не работает

Я играю с sclearn PCA, и он ведет себя странно. from sklearn.decomposition import PCA import numpy as np identity = np.identity(10) pca = PCA(n_components=10) augmented_identity = pca.fit_transform(identity) np.linalg.norm(identity – augmented_identity) 4.5997749080745738 Обратите внимание, что я устанавливаю число измерений равным 10. Если норма не равна 0? Любое понимание того, почему это не так, было бы оценено.

Python - лучший язык программирования в мире.