Tag: scikit learn

Аргумент вращения для факторного анализа scikit-learn

Одним из признаков факторного анализа является то, что он допускает неортогональные скрытые переменные. В R, например, эта функция доступна через параметр rotation factanal . Есть ли такое положение для sklearn.decomposition.FactorAnalysis ? Понятно, что это не среди аргументов, но, может быть, есть еще один способ добиться этого? К сожалению, мне не удалось найти много примеров использования […]

КАК МАРКИРОВАТЬ ВАШЕ ХАРАКТЕРИСТИК с лесами деревьев?

Я использую sklearn для определения важности для лесов деревьев. Блок данных называется «сердцем». Здесь код для извлечения списка отсортированных функций: importances = extc.feature_importances_ indices = np.argsort(importances)[::-1] print("Feature ranking:") for f in range(heart_train.shape[1]): print("%d. feature %d (%f)" % (f + 1, indices[f], importances[indices[f]])) Затем я рисую список следующим образом: f, ax = plt.subplots(figsize=(11, 9)) plt.title("Feature ranking", […]

Способ вычисления нерегулярно разнесенных точек накопления

Я пытаюсь сделать противоположное этому : учитывая двумерное изображение (непрерывных) интенсивностей, создайте множество нерегулярно разнесенных точек накопления, т. Е. Точки, которые нерегулярно покрывают двумерную карту, будучи ближе друг к другу в областях с высокой интенсивностью ( но без перекрытия! ). Моя первая попытка была «взвешена» k-средствами. Поскольку я не нашел рабочей реализации взвешенных k-средств, способ […]

матрица смешивания scikits с перекрестной проверкой

Я тренирую классификатор svm с перекрестной проверкой (stratifiedKfold) с использованием интерфейсов scikits. Для каждого набора тестов (k) я получаю результат классификации. Я хочу иметь матрицу путаницы со всеми результатами. Scikits имеет интерфейс матрицы путаницы: sklearn.metrics.confusion_matrix (y_true, y_pred). Мой вопрос заключается в том, как я должен накапливать значения y_true и y_pred. Это массивы (numpy). Должен ли […]

Weird ValueError в рейтинге KNeighborsClassifier

Я хочу построить кривые обучения классификатора K Nearest Neighbors. У меня есть следующий код: X_train = #training data Y_train = #target variables best_neighbors = #number of neighbors which gave highest score (3) idx = len(X_train)/5000 scores = pd.DataFrame(np.zeros((idx+1, 2)), index=np.arange(1, len(X_train), 5000), columns=['Train Score', 'CV Score']) for i in range(1, len(X_train), 5000): X_train_set = X_train[:i] […]

Упорядоченный логит в Python?

Мне интересно запустить упорядоченную регрессию logit в python (используя pandas, numpy, sklearn или что-то такое, что экосистема). Но я не могу найти способ сделать это. Не хватает ли моего google-мастерства? Или это не то, что было реализовано в стандартном пакете?

xgboost и его интеграция с функцией sklearn feature_importances_ error

Я использую XGBoost и его sklearn . Всякий раз, когда я пытаюсь напечатать feature_importances_ он приходит со следующей ошибкой: ValueError: неверный литерал для int () с базой 10 Копаясь в коде, я узнал, что свойство feature_importances_ вызывает метод get_fscore ( с пустыми параметрами ) от исходного бустера. Этот метод явно возвращает словарь, подобный этому: {'feat_name1':5,'feat_name2':8,…,'feat_nameN':1} […]

Добавление новых слов в текстовый указатель в scikit-learn

Scikit-learn CountVectorizer для подбора мешков слов в настоящее время дает два подпараметра: (a) использовать пользовательский словарный запас (b), если пользовательский словарь недоступен, тогда он делает словарь на основе всех слов, присутствующих в корпусе. Мой вопрос: можем ли мы указать пользовательский словарь для начала, но убедитесь, что он обновляется при просмотре новых слов при обработке корпуса. […]

Преобразование массивов NumPy в Pandas Dataframe с колонками

Я хочу нормализовать свои как категориальные, так и числовые значения. cols = df.columns.values.tolist() df_num = df.drop(CAT_COLUMNS, axis=1) df_num = df_num.as_matrix() df_num = preprocessing.StandardScaler().fit_transform(df_num) df.fillna('NA', inplace=True) df_cat = df.T.to_dict().values() vec_cat = DictVectorizer( sparse=False ) df_cat = vec_cat.fit_transform(df_cat) После этого мне нужно объединить 2 массива numpy обратно в pandas dataframe, но ниже подход не работает для меня. […]

sklearn, LassoCV () и ElasticCV () сломан?

sklearn предоставляет метод LASSO для оценки регрессии. Однако, когда я пытаюсь установить LassoCV (X, y) с матрицей ya, это вызывает ошибку. См. Снимок экрана ниже и ссылку для их документации. Версия sklearn, которую я использую, – 0.15.2. http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LassoCV.html#sklearn.linear_model.LassoCV В его документе говорится, что y может быть ndarray: y : array-like, shape (n_samples,) or (n_samples, n_targets) […]

 
Interesting Posts for Van-Lav

Как извлечь объект JSON, который был определен в блоке javascript HTML-страницы, используя Python?

Создание биграмм с использованием NLTK из корпуса с несколькими строками

Как получить доступ к Scikit Узнать вложенные оценки перекрестной проверки

Сортировка списка Python в зависимости от длины строки

Почему переменные значения в Python перечисляет один и тот же объект?

пул соединений pymongo и клиентские запросы

Развертывание matplotlib на heroku не удалось. Как это сделать правильно?

Сокращение добавления / добавления в Python

Получить предыдущий объект без len (list)

Является ли Python слабо типизированным языком, поскольку переменные могут переключать типы?

Проблема подключения LDAP с самозаверяющим сертификатом

Преобразование вложенного словаря в список

В каком порядке выполняются фитинги pytest?

Python Нажмите: пользовательское сообщение об ошибке

Получить последние 10000 строк csv-файла

Python - лучший язык программирования в мире.