Переход от ETL к ELT
Эволюция процессов обработки данных переход от ETL к ELT
Как облачные вычисления и инженерия аналитики заставили перейти от ETL к ELT
ETL (Extract-Transform-Load) и ELT (Extract-Load-Transform) – два термина, широко используемые в области инженерии данных и, более конкретно, в контексте взятия и преобразования данных.
Хотя эти термины часто используются взаимозаменяемо, они относятся к немного разным концепциям и имеют разные последствия для проектирования конвейера данных.
В этом посте мы разъясним определения процессов ETL и ELT, обозначим различия между ними и обсудим преимущества и недостатки, которые они предлагают инженерам и командам по данным в целом.
И, что самое важное, я расскажу о том, как последние изменения в структуре современных команд по данным повлияли на ситуацию вокруг противостояния ETL и ELT.
- «Обнаружение объектов с использованием RetinaNet и KerasCV»
- Программирование графических процессоров Apple через Go и язык Metal Shading
- Сотрудничающие графовые нейронные сети
Понимание независимого извлечения, загрузки и преобразования
Основная ставка при сравнении ETL и ELT, очевидно, заключается в последовательности выполнения шагов извлечения, загрузки и преобразования в рамках конвейера данных.
Пока игнорируем эту последовательность выполнения и сосредотачиваемся на актуальной терминологии и обсуждаем о том, что предполагается делать на каждом отдельном шаге.
Извлечение: Этот шаг означает процесс извлечения данных из постоянного источника. Этот источник данных может быть базой данных, точкой доступа к API, файлом или на самом деле чем-то, что содержит какие-либо данные, включая как структурированные, так и неструктурированные данные.
Преобразование: На этом этапе ожидается, что конвейер будет выполнять некоторые изменения в структуре или формате данных, чтобы достичь определенной цели. Преобразование может быть выбором атрибута, модификацией записей (например, преобразование 'United Kingdom'
в 'UK'
), проверкой данных, объединением с другим источником или на самом деле чем-то, что меняет формат входных исходных данных.
Загрузка: Шаг загрузки относится к процессу копирования данных (либо изначальной, либо преобразованной версии) в целевую систему…