Tag: scikit learn

Матрица путаницы Scikit-learn

Я не могу понять, правильно ли я исправил проблему с бинарной классификацией. Я обозначил положительный класс 1 и отрицательный 0. Однако я понимаю, что по умолчанию scikit-learn использует класс 0 в качестве положительного класса в своей матрице путаницы (так что обратное к тому, как я его настроил). Это меня смущает. Является ли верхняя строка в […]

Как использовать изолирующий лес

Я пытаюсь обнаружить выбросы в моем наборе данных, и я нахожу изолирующий лес Склеарна. Я не могу понять, как с этим работать. Я вписываю свои данные обучения в него, и он возвращает мне вектор с -1 и 1 значениями. Может ли кто-нибудь объяснить мне, как это работает и предоставить пример? Как я могу узнать, что […]

Как установить scikit-learn на геройку кедра?

Я успешно установил numpy и scipy, используя метод, описанный в этом ответе. Затем я хотел добавить scikit-learn, поэтому сначала я попытался добавить scikit-learn==0.11 в файл требований.txt, а когда нажал на герою, я получил сообщение об ошибке: ImportError: liblapack.so.3gf: cannot open shared object file: No such file or directory Поэтому я добавил в LD_LIBRARY_PATH путь, где […]

scipy разреженная матрица: удалите строки, все элементы которых равны нулю

У меня есть разреженная матрица, которая преобразуется из sklearn tfidfVectorier. Я считаю, что некоторые строки – все-нулевые строки. Я хочу их удалить. Однако, насколько мне известно, существующие встроенные функции, например ненулевые () и elim_zero (), фокусируются на нулевых записях, а не на строках. Есть ли простой способ удалить все нулевые строки из разреженной матрицы? Пример: […]

Анализ основных компонентов не работает

Я пытаюсь сделать анализ основных компонентов на наборах данных, содержащих изображения, но всякий раз, когда я хочу применить pca.transform из модуля sklearn.decomposition, я продолжаю получать эту ошибку: * AttributeError: объект «PCA» не имеет атрибута «mean _» * . Я знаю, что означает эта ошибка, но я не знаю, как это исправить. Я считаю, что некоторые […]

В чем разница между конвейером и make_pipeline в scikit?

Я получил это на веб-странице sklearn: a) Трубопровод: трубопровод трансформаций с окончательной оценкой б) Make_pipeline: постройте трубопровод из заданных оценок. Это сокращение для конструктора Pipeline. Но я все еще не понимаю, когда я должен использовать каждый. Может ли кто-нибудь дать мне пример?

Сохранение данных в sklearn

Я использую scikit-learn для кластерных текстовых документов. Я использую классы CountVectorizer, TfidfTransformer и MiniBatchKMeans, чтобы помочь мне в этом. Новые текстовые документы все время добавляются в систему, а это значит, что мне нужно использовать вышеприведенные классы, чтобы преобразовать текст и предсказать кластер. Мой вопрос: как хранить данные на диске? Должен ли я просто рассортировать объекты […]

Простой прогноз с использованием линейной регрессии с питоном

data2 = pd.DataFrame(data1['kwh']) data2 kwh date 2012-04-12 14:56:50 1.256400 2012-04-12 15:11:55 1.430750 2012-04-12 15:27:01 1.369910 2012-04-12 15:42:06 1.359350 2012-04-12 15:57:10 1.305680 2012-04-12 16:12:10 1.287750 2012-04-12 16:27:14 1.245970 2012-04-12 16:42:19 1.282280 2012-04-12 16:57:24 1.365710 2012-04-12 17:12:28 1.320130 2012-04-12 17:27:33 1.354890 2012-04-12 17:42:37 1.343680 2012-04-12 17:57:41 1.314220 2012-04-12 18:12:44 1.311970 2012-04-12 18:27:46 1.338980 2012-04-12 18:42:51 1.357370 2012-04-12 […]

Ближайшие соседи в Питоне с учетом матрицы расстояния

Я должен применить Ближайшие Соседи в Python, и я ищу ad scikit-learn и scipy библиотеки, которые требуют данных как входные данные, затем вычисляют расстояния и применяют алгоритм. В моем случае мне приходилось вычислять нестандартное расстояние, поэтому я хотел бы знать, есть ли способ напрямую передать матрицу расстояний.

StratifiedKFold: IndexError: слишком много индексов для массива

Используя функцию StratifiedKFold sklearn, может кто-нибудь помочь мне понять ошибку здесь? Я предполагаю, что это имеет какое-то отношение к моему массиву ввода меток, я замечаю, когда я их печатаю (первые 16 в этом примере) индексирование идет от 0 до 15, но выше 0 печатается над тем, что я не был ожидая. Может быть, я просто […]

Python - лучший язык программирования в мире.