Введение в инжиниринг аналитики
Введение в аналитику инжиниринга
Кто такой инженер аналитики и что они должны делать
![Изображение, созданное с помощью DALL-E2](https://ai.miximages.com/miro.medium.com/v2/resize:fit:640/format:webp/0*pBeh1A2EZQMEqi0Z.png)
Традиционно, команды по обработке данных формировались из Инженеров по обработке данных и Аналитиков данных.
Инженеры по обработке данных отвечают за создание инфраструктуры для поддержки операций с данными. Это включает настройку баз данных и реализацию процессов ETL, которые используются для загрузки данных из внешних источников в систему назначения (возможно, в другую базу данных). Кроме того, Инженеры по обработке данных обычно отвечают за обеспечение целостности, актуальности и безопасности данных, чтобы Аналитики могли делать запросы к данным. Обычный набор навыков для Инженера по обработке данных включает Python (или Java), SQL, оркестрацию (с использованием инструментов, таких как Apache Airflow) и моделирование данных.
С другой стороны, Аналитики данных должны создавать информационные панели и отчеты с использованием Excel или SQL для предоставления бизнес-инсайтов внутренним пользователям и отделам.
![Традиционное формирование команд по обработке данных](https://ai.miximages.com/miro.medium.com/v2/resize:fit:640/format:webp/0*4EJxM6dDAe7CRSqH.png)
Переход от ETL к ELT
Чтобы обработать данные и получить ценные идеи, мы сначала должны их извлечь, верно? 🤯
- Векторный поиск – не все, что вам нужно
- Применение AIoT в современности
- Большие языковые модели TinyBERT — дистилляция BERT для NLP
Извлечение данных выполняется с использованием процессов ETL (и недавно с использованием ELT). Оба подхода ETL и ELT включают три основных шага: Извлечение, Преобразование и Загрузка. Пока что давайте игнорировать последовательность выполнения этих шагов и сконцентрируемся на том, что делает каждый шаг независимо.
Извлечение
Этот шаг относится к процессу извлечения данных из постоянного источника. Источником данных может быть база данных, конечная точка API, файл или очередь сообщений.
![Шаг извлечения данных из различных источников — Источник: Автор](https://ai.miximages.com/miro.medium.com/v2/resize:fit:640/format:webp/0*I3nIFq9ysfGz6dYP.png)
Преобразование
На этом шаге предполагается, что конвейер выполняет некоторые изменения в структуре и/или формате данных для достижения определенной цели. Преобразование может быть изменением (например, сопоставление “United States” с “US”), выбором атрибута, числовым расчетом или объединением.