Введение в манипуляцию данными в R с использованием {dplyr}

Основы обработки данных в R с помощью {dplyr}

Узнайте, как использовать пакет {dplyr} в R, который поможет вам решить наиболее распространенные задачи по манипулированию данными

Фото от Claudio Schwarz

Введение

В предыдущей статье мы показали, как манипулировать данными в R. В частности, мы показали, как создавать и манипулировать векторами, факторами, списками и таблицами данных. Это служило введением в R и было направлено на начинающих. Кроме того, все манипуляции выполнялись в базовом R, то есть без необходимости загружать какой-либо пакет.

В этой статье мы хотим снова показать, как манипулировать данными в R, но на этот раз с использованием пакета {dplyr}.

Пакет {dplyr}, разработанный Хэдли Уикхэмом и его коллегами в posit, предоставляет полный набор функций, которые помогут вам решить наиболее распространенные задачи по манипулированию данными, такие как:

  • фильтрация наблюдений на основе их значений
  • извлечение наблюдений на основе их значений или позиций
  • выборка наблюдений на основе определенного числа или доли строк
  • сортировка наблюдений по одной или нескольким переменным
  • выбор переменных по их именам или позициям
  • переименование переменных
  • добавление новых переменных на основе существующих
  • сводка наблюдений или переменных к единому описательному показателю
  • выполнение любой операции по группе
  • категоризация наблюдений на две или более группы
  • и т.д.

Дополнительную информацию о пакете можно найти на сайте dplyr.tidyverse.org.

В этой статье мы представим наиболее распространенные функции для манипулирования данными и управления данными с использованием пакета {dplyr} (на примере таблицы данных). Однако это не полный список! Вероятно, вам понадобятся и другие функции, отличные от представленных здесь. Интересующимся читателям смотрите в конце этой статьи дополнительные ресурсы.

Меня часто спрашивают, что лучше: сначала изучить манипуляции с данными в базовом R, а затем перейти к {dplyr}, или сразу изучать {dplyr}.