Переход от ETL к ELT

Эволюция процессов обработки данных переход от ETL к ELT

Как облачные вычисления и инженерия аналитики заставили перейти от ETL к ELT

Изображение, созданное с помощью DALL-E

ETL (Extract-Transform-Load) и ELT (Extract-Load-Transform) – два термина, широко используемые в области инженерии данных и, более конкретно, в контексте взятия и преобразования данных.

Хотя эти термины часто используются взаимозаменяемо, они относятся к немного разным концепциям и имеют разные последствия для проектирования конвейера данных.

В этом посте мы разъясним определения процессов ETL и ELT, обозначим различия между ними и обсудим преимущества и недостатки, которые они предлагают инженерам и командам по данным в целом.

И, что самое важное, я расскажу о том, как последние изменения в структуре современных команд по данным повлияли на ситуацию вокруг противостояния ETL и ELT.

Понимание независимого извлечения, загрузки и преобразования

Основная ставка при сравнении ETL и ELT, очевидно, заключается в последовательности выполнения шагов извлечения, загрузки и преобразования в рамках конвейера данных.

Пока игнорируем эту последовательность выполнения и сосредотачиваемся на актуальной терминологии и обсуждаем о том, что предполагается делать на каждом отдельном шаге.

Извлечение: Этот шаг означает процесс извлечения данных из постоянного источника. Этот источник данных может быть базой данных, точкой доступа к API, файлом или на самом деле чем-то, что содержит какие-либо данные, включая как структурированные, так и неструктурированные данные.

Шаг извлечения извлекает данные из разных источников — Источник: Автор

Преобразование: На этом этапе ожидается, что конвейер будет выполнять некоторые изменения в структуре или формате данных, чтобы достичь определенной цели. Преобразование может быть выбором атрибута, модификацией записей (например, преобразование 'United Kingdom' в 'UK'), проверкой данных, объединением с другим источником или на самом деле чем-то, что меняет формат входных исходных данных.

Загрузка: Шаг загрузки относится к процессу копирования данных (либо изначальной, либо преобразованной версии) в целевую систему…