Вменение недостающих значений для категорий в пандах

Вопрос в том, как заполнить NaN с наиболее частыми уровнями для столбца категории в кадре данных панд?

В пакете R randomForest есть опция na.roughfix : A completed data matrix or data frame. For numeric variables, NAs are replaced with column medians. For factor variables, NAs are replaced with the most frequent levels (breaking ties at random). If object contains no NAs, it is returned unaltered. A completed data matrix or data frame. For numeric variables, NAs are replaced with column medians. For factor variables, NAs are replaced with the most frequent levels (breaking ties at random). If object contains no NAs, it is returned unaltered.

в Pandas для числовых переменных я могу заполнить значения NaN с помощью:

 df = df.fillna(df.median()) 

One Solution collect form web for “Вменение недостающих значений для категорий в пандах”

Вы можете использовать df = df.fillna(df['Label'].value_counts().index[0]) чтобы заполнить NaN наиболее частое значение из одного столбца.

Если вы хотите заполнить каждый столбец своим самым частым значением, вы можете использовать

df = df.apply(lambda x:x.fillna(x.value_counts().index[0]))

  • Как начать работу с крупным анализом данных
  • Есть ли scipy / numpy альтернатива R nrd0?
  • Похожие функции .rdata в Python?
  • Проблема с установкой Rpy2, windows 7
  • rpy2 не может импортировать пакет «rgl» R
  • Как изменить таблицу в пандах в формате, подходящем для анализа в R?
  • Сравнение словарей Python и R
  • Есть ли файл сценариев csv Python, способный сопоставлять скорость записи данных.table?
  • Python - лучший язык программирования в мире.