Дисбаланс в scikit-learn

Я использую scikit-learn в своей программе Python для выполнения некоторых операций машинного обучения. Проблема в том, что мой набор данных имеет серьезные проблемы с дисбалансом.

Кто-нибудь знаком с решением проблемы дисбаланса в изучении scikit или вообще в python? В Java есть механизм SMOTE. Есть что-то параллельное в python?

  • Python scikit-learn: не может клонировать объект ... поскольку конструктор, похоже, не задает параметр
  • scikit-learn GridSearchCV с несколькими повторениями
  • Является ли countvectorizer таким же, как tfidfvectorizer с use_idf = false?
  • Python scikit learn pca.explained_variance_ratio_ cutoff
  • Каков самый простой способ получить tfidf с помощью pandas dataframe?
  • Как разрешить объект «NoneType» не имеет атрибута «написать» ошибку с набором данных цифр scikit-learn?
  • Рандомизированная стратифицированная k-кратная перекрестная проверка в scikit-learn?
  • Сравнение R, statmodels, sklearn для задачи классификации с логистической регрессией
  • 4 Solutions collect form web for “Дисбаланс в scikit-learn”

    SMOTE не является встроенным в scikit-learn, но, тем не менее, существуют версии, доступные в Интернете.
    Вот , например.

    Здесь есть новый

    https://github.com/scikit-learn-contrib/imbalanced-learn

    Он содержит множество алгоритмов в следующих категориях, включая SMOTE

    • Недостаточная выборка класса (ов) большинства.
    • Чрезмерная выборка класса меньшинства.
    • Сочетание избыточной и недостаточной выборки.
    • Создавайте ансамблевые сбалансированные наборы.

    В Scikit учатся некоторые методы коррекции дисбаланса, которые варьируются в зависимости от того, какой алгоритм обучения вы используете.

    Некоторые из них, например Svm или логистическая регрессия , имеют параметр class_weight. Если вы создаете экземпляр SVC с этим параметром, установленным в «auto», он будет взвешивать каждый пример класса пропорционально обратному его частоте.

    К сожалению, для этой цели нет препроцессора.

    Я нашел здесь еще одну библиотеку, которая реализует недосэмплинг, а также несколько методов передискретизации, включая несколько реализаций SMOTE, а другой – SVM:

    https://github.com/fmfn/UnbalancedDataset

    Interesting Posts

    Ошибка при преобразовании временной шкалы данных Pandas

    Как сортировать столбцы dataframe на основе значений в нескольких строках?

    Двоичные данные с pyserial (последовательный порт python)

    Sendmail Errno Соединение Отказано

    Python 2.7 на Windows, «assert main_name не в sys.modules, main_name» для всех примеров многопроцессорности

    Параллельная выборка файлов

    Почему input () дает ошибку, когда я просто нажимаю клавишу ввода?

    Сортировка списка в Python с использованием результата сортировки другого списка

    Как я могу заставить маркер появляться непосредственно рядом с текстом отступованного списка в пакете reportlab для python?

    TensorFlow: запомните состояние LSTM для следующей партии (с учетом состояния LSTM)

    как эффективно получить k больших элементов списка в python

    django подозрительная операция по загрузке изображения

    Ошибка при установке matplotlib

    Логическая операция Python

    «EOL во время сканирования строки с одним кавычком»? (обратная косая черта в строке)

    Python - лучший язык программирования в мире.