Вычисление итоговой статистики столбцов в области данных

У меня есть dataframe следующей формы (например)

shopper_num,is_martian,number_of_items,count_pineapples,birth_country,tranpsortation_method 1,FALSE,0,0,MX, 2,FALSE,1,0,MX, 3,FALSE,0,0,MX, 4,FALSE,22,0,MX, 5,FALSE,0,0,MX, 6,FALSE,0,0,MX, 7,FALSE,5,0,MX, 8,FALSE,0,0,MX, 9,FALSE,4,0,MX, 10,FALSE,2,0,MX, 11,FALSE,0,0,MX, 12,FALSE,13,0,MX, 13,FALSE,0,0,CA, 14,FALSE,0,0,US, 

Как я могу использовать Pandas для вычисления сводной статистики для каждого столбца (типы данных столбцов являются переменными, некоторые столбцы не имеют информации

Затем верните форму данных формы:

 columnname, max, min, median, is_martian, NA, NA, FALSE 

Итак, и т. Д.

  • Почему 000 оценивает значение 0 в Python 3?
  • Как форматировать строку, используя словарь в python-3.x?
  • Выбор значения из раскрывающегося списка с использованием selenium python
  • SqlAlchemy Core и голосовой запрос
  • Как читать изображение из массива numpy в изображение PIL?
  • Python - запустить макрос Excel
  • Инкрементный PCA на большие данные
  • В python, как захватить stdout из общей библиотеки c ++ в переменную
  • 2 Solutions collect form web for “Вычисление итоговой статистики столбцов в области данных”

    describe может дать вам все, что вам нужно, иначе вы можете выполнять агрегации с помощью groupby и передавать список agg-функций: http://pandas.pydata.org/pandas-docs/stable/groupby.html#applying-multiple-functions-at- один раз

     In [43]: df.describe() Out[43]: shopper_num is_martian number_of_items count_pineapples count 14.0000 14 14.000000 14 mean 7.5000 0 3.357143 0 std 4.1833 0 6.452276 0 min 1.0000 False 0.000000 0 25% 4.2500 0 0.000000 0 50% 7.5000 0 0.000000 0 75% 10.7500 0 3.500000 0 max 14.0000 False 22.000000 0 [8 rows x 4 columns] 

    Обратите внимание, что некоторые столбцы нельзя суммировать, так как нет логического способа их суммирования, например столбцы, содержащие строковые данные

    Как вы предпочитаете, вы можете перенести результат, если хотите:

     In [47]: df.describe().transpose() Out[47]: count mean std min 25% 50% 75% max shopper_num 14 7.5 4.1833 1 4.25 7.5 10.75 14 is_martian 14 0 0 False 0 0 0 False number_of_items 14 3.357143 6.452276 0 0 0 3.5 22 count_pineapples 14 0 0 0 0 0 0 0 [4 rows x 8 columns] 

    Чтобы прояснить одну точку в ответе @ EdChum, в документации вы можете включить столбцы объекта, используя df.describe(include='all') . Он не будет предоставлять множество статистических данных, но предоставит несколько фрагментов информации, включая количество, количество уникальных значений, верхнее значение. Это может быть новая функция, я не знаю, поскольку я относительно новый пользователь.

    Python - лучший язык программирования в мире.