Введение в инжиниринг аналитики

Введение в аналитику инжиниринга

Кто такой инженер аналитики и что они должны делать

Изображение, созданное с помощью DALL-E2

Традиционно, команды по обработке данных формировались из Инженеров по обработке данных и Аналитиков данных.

Инженеры по обработке данных отвечают за создание инфраструктуры для поддержки операций с данными. Это включает настройку баз данных и реализацию процессов ETL, которые используются для загрузки данных из внешних источников в систему назначения (возможно, в другую базу данных). Кроме того, Инженеры по обработке данных обычно отвечают за обеспечение целостности, актуальности и безопасности данных, чтобы Аналитики могли делать запросы к данным. Обычный набор навыков для Инженера по обработке данных включает Python (или Java), SQL, оркестрацию (с использованием инструментов, таких как Apache Airflow) и моделирование данных.

С другой стороны, Аналитики данных должны создавать информационные панели и отчеты с использованием Excel или SQL для предоставления бизнес-инсайтов внутренним пользователям и отделам.

Традиционное формирование команд по обработке данных

Переход от ETL к ELT

Чтобы обработать данные и получить ценные идеи, мы сначала должны их извлечь, верно? 🤯

Извлечение данных выполняется с использованием процессов ETL (и недавно с использованием ELT). Оба подхода ETL и ELT включают три основных шага: Извлечение, Преобразование и Загрузка. Пока что давайте игнорировать последовательность выполнения этих шагов и сконцентрируемся на том, что делает каждый шаг независимо.

Извлечение

Этот шаг относится к процессу извлечения данных из постоянного источника. Источником данных может быть база данных, конечная точка API, файл или очередь сообщений.

Шаг извлечения данных из различных источников — Источник: Автор

Преобразование

На этом шаге предполагается, что конвейер выполняет некоторые изменения в структуре и/или формате данных для достижения определенной цели. Преобразование может быть изменением (например, сопоставление “United States” с “US”), выбором атрибута, числовым расчетом или объединением.