Tag: машинное обучение

10 * 10-кратное перекрестное подтверждение в scikit-learn?

Является class sklearn.cross_validation.ShuffleSplit( n, n_iterations=10, test_fraction=0.10000000000000001, indices=True, random_state=None ) правильный путь для 10 * 10-кратного CV в scikit-learn? (Изменяя random_state на 10 разных номеров) Потому что я не нашел ни random_state параметра random_state в Stratified K-Fold или K-Fold а отдельные из K-Fold всегда одинаковы для одних и тех же данных. Если ShuffleSplit является правильным, одна […]

Обработка большого количества данных в Python

Я пытаюсь обработать хороший кусок данных (несколько ГБ), но мой персональный компьютер сопротивляется, чтобы сделать это в разумные сроки, поэтому мне было интересно, какие у меня варианты? Я использовал csv.reader python, но было очень медленным даже для получения 200 000 строк. Затем я перенес эти данные в базу данных sqlite, которая быстрее извлекала результаты и […]

Матрица путаницы Scikit-learn

Я не могу понять, правильно ли я исправил проблему с бинарной классификацией. Я обозначил положительный класс 1 и отрицательный 0. Однако я понимаю, что по умолчанию scikit-learn использует класс 0 в качестве положительного класса в своей матрице путаницы (так что обратное к тому, как я его настроил). Это меня смущает. Является ли верхняя строка в […]

Как использовать изолирующий лес

Я пытаюсь обнаружить выбросы в моем наборе данных, и я нахожу изолирующий лес Склеарна. Я не могу понять, как с этим работать. Я вписываю свои данные обучения в него, и он возвращает мне вектор с -1 и 1 значениями. Может ли кто-нибудь объяснить мне, как это работает и предоставить пример? Как я могу узнать, что […]

scikit-learn GMM дают положительную логарифмическую вероятность

Я использую модель Gaussian Mixture из пакета python scikit-learn для обучения моего набора данных, однако, я знаю, что когда я кодирую – G = смесь. ГММ (…) – G.fit (…) – G.score (функция суммы) результирующая логарифмическая вероятность – положительное действительное число … почему? не является ли логарифмическая вероятность гарантированной отрицательной? Я понял. какая модель Гауссовской […]

Анализ основных компонентов не работает

Я пытаюсь сделать анализ основных компонентов на наборах данных, содержащих изображения, но всякий раз, когда я хочу применить pca.transform из модуля sklearn.decomposition, я продолжаю получать эту ошибку: * AttributeError: объект «PCA» не имеет атрибута «mean _» * . Я знаю, что означает эта ошибка, но я не знаю, как это исправить. Я считаю, что некоторые […]

Сохранение данных в sklearn

Я использую scikit-learn для кластерных текстовых документов. Я использую классы CountVectorizer, TfidfTransformer и MiniBatchKMeans, чтобы помочь мне в этом. Новые текстовые документы все время добавляются в систему, а это значит, что мне нужно использовать вышеприведенные классы, чтобы преобразовать текст и предсказать кластер. Мой вопрос: как хранить данные на диске? Должен ли я просто рассортировать объекты […]

Как вычислить точность, напомнить и F-счет с помощью libSVM в python

Я хочу рассчитать precision , recall и f-score используя libsvm в Python, но я не знаю, как это сделать. Я нашел этот сайт, но я не понимаю, как вызвать функцию, если вы можете помочь мне на примере.

Ближайшие соседи в Питоне с учетом матрицы расстояния

Я должен применить Ближайшие Соседи в Python, и я ищу ad scikit-learn и scipy библиотеки, которые требуют данных как входные данные, затем вычисляют расстояния и применяют алгоритм. В моем случае мне приходилось вычислять нестандартное расстояние, поэтому я хотел бы знать, есть ли способ напрямую передать матрицу расстояний.

Тензорный поток Нан причин потери

Возможно, слишком общий вопрос, но может ли кто-нибудь объяснить, что может вызвать сверхочную нейронную сеть? Особенности: Я использую модель iris_training от Tensorflow с некоторыми моими собственными данными и продолжаю получать ОШИБКА: тензорный поток: модель расходится с потерей = NaN. Выслеживать… tensorflow.contrib.learn.python.learn.monitors.NanLossDuringTrainingError: потеря NaN во время обучения. Трассировка возникла с помощью строки: tf.contrib.learn.DNNClassifier(feature_columns=feature_columns, hidden_units=[300, 300, 300], […]

Python - лучший язык программирования в мире.