Tag: scikit learn

MemoryError при преобразовании разреженной матрицы в плотную матрицу? (numpy, scikit)

lr = lm.LogisticRegression(penalty='l2', dual=True, tol=0.0001, C=1, fit_intercept=True, intercept_scaling=1.0, class_weight=None, random_state=None) rd = AdaBoostClassifier( base_estimator=lr, learning_rate=1, n_estimators=20, algorithm="SAMME") ##here, i am deleting unnecesseary objects ##print X.shape ##(7395, 412605) print "20 Fold CV Score: ", np.mean(cross_validation.cross_val_score(rd, X, y, cv=20, scoring='roc_auc')) Когда я запускаю это, я получаю эту ошибку: TypeError: решена малая матрица, но требуются плотные данные. Используйте […]

Pandas – автоматически определяет столбцы даты ** во время выполнения **

Мне было интересно, смогут ли pandas автоматически определять, какие столбцы являются объектами datetime, и читать эти столбцы как даты вместо строк? Я смотрю на api и связанные с ними переполнения стека, но я не могу понять это. Это система с черным ящиком, которая принимает произвольную схему csv при создании, поэтому я не знаю, как будут […]

Как преобразовать объекты с использованием Sklearn Pipeline?

У меня есть простая трубка Scikit-learn из двух этапов: TfIdfVectorizer а затем LinearSVC . Я использую конвейер, используя мои данные. Все хорошо. Теперь я хочу преобразовать (не предсказывать!) Предмет, используя мой подогнанный pipeline . Я попробовал pipeline.transform([item]) , но он дает другой результат по сравнению с pipeline.named_steps['tfidf'].transform([item]) . Даже форма и тип результата различны: первая […]

Сохранять имена функций после выбора функции Scikit

После запуска параметра Variance Threshold из Scikit-Learn на наборе данных он удаляет несколько функций. Я чувствую, что делаю что-то простое, но глупое, но я бы хотел сохранить имена остальных функций. Следующий код: def VarianceThreshold_selector(data): selector = VarianceThreshold(.5) selector.fit(data) selector = (pd.DataFrame(selector.transform(data))) return selector x = VarianceThreshold_selector(data) print(x) изменяет следующие данные (это всего лишь небольшое подмножество […]

как печатать оценочные коэффициенты после того, как (GridSearchCV) соответствует модели? (SGDRegressor)

Я новичок в scikit-learn , но он сделал то, на что я надеялся. Теперь, безумно, единственной оставшейся проблемой является то, что я не нахожу, как я мог печатать (или даже лучше писать в текстовом файле) все оцениваемые коэффициенты, все функции, которые он выбрал. Каков способ сделать это? То же самое с SGDClassifier, но я думаю, […]

Создание ngrams из scikit learn и count vectorizer throws Ошибка памяти

Я создаю ngrams из нескольких текстовых документов, используя scikit-learn . Мне нужно создать частоту документа, используя countVectorizer . Пример : document1 = "john is a nice guy" document2 = "person can be a guy" Таким образом, частота документа будет {'be': 1, 'can': 1, 'guy': 2, 'is': 1, 'john': 1, 'nice': 1, 'person': 1} Здесь документы […]

Sklearn: перекрестная проверка для сгруппированных данных

Я пытаюсь внедрить схему перекрестной проверки на сгруппированные данные. Я надеялся использовать метод GroupKFold, но я все время получаю сообщение об ошибке. Что я делаю не так? Код (немного отличающийся от того, который я использовал), у меня были разные данные, поэтому у меня было больше n_splits, но все равно одно и то же) from sklearn […]

Логистическая регрессия python (новичок)

Я работаю над обучением себе немного логистической регрессии с использованием python. Я пытаюсь применить уроки в пошаговом руководстве здесь к небольшому набору данных в записи wikipedia здесь . Что-то кажется не совсем правильным. Wikipedia и Excel Solver (проверенные с помощью метода в этом видео ) дают перехват -4.0777 и коэффициент 1.5046, но код, который я […]

Отчет классификации Scikit – изменение формата отображаемых результатов

Отчет классификации Scikit будет показывать точность и количество баллов заново только с двумя цифрами. Возможно ли, чтобы он отображал 4 цифры после точки, я имею в виду вместо 0,67 для показа 0,6783? from sklearn.metrics import classification_report print classification_report(testLabels, p, labels=list(set(testLabels)), target_names=['POSITIVE', 'NEGATIVE', 'NEUTRAL']) precision recall f1-score support POSITIVE 1.00 0.82 0.90 41887 NEGATIVE 0.65 0.86 […]

Преобразование строк в

Попытка выполнить простую линейную классификацию по медицинским данным. Данные образца состоят из всех строк, большинство значений находятся в формате «да», «нет», я хочу, чтобы эти данные были преобразованы в целочисленные значения 1 и 0, чтобы я мог провести статистический анализ. Следующий мой код import pandas as pd from sklearn.cross_validation import train_test_split from sklearn import preprocessing […]

Interesting Posts for Van-Lav

Обновление до Django 1.7. Ошибка при получении: невозможно выполнить сериализацию: <storages.backends.s3boto.S3BotoStorage object

Python: как узнать, имеют ли два словаря одинаковые ключи

Python сортирует список по длине значения в кортеже

вызывать скрипт python на стороне сервера из javascript

PyCharm. Получение Dir Project в окне «Run / Debug Configuration»

Python + numpy: тот же код, другой числовой результат

Загрузка файла python urllib2 не работает при повторном подключении сети

Кодировка Unicode для файловой системы в Mac OS X неверна в Python?

Python, строковый формат, newline (C ++ – std :: endl)

Как получить количество значений для нескольких столбцов сразу в Pandas DataFrame?

Мигание флаговых сообщений не выполняется при переадресации

Почему этот генератор python возвращает одно и то же значение каждый раз?

Ошибка ModuleNotFound в django в веб-приложении Django tastypie

Python – Threading и while True Loop

Текстовый бой на Python: печать на одной строке

Python - лучший язык программирования в мире.