Совершенствование навыков в области заполнения данных повышение экспертизы в инжиниринге данных

Повышение навыков по заполнению данных и расширение экспертизы в области инжиниринга данных

DATA ENGINEERING

ПРОЕКТИРОВАНИЕ ДАННЫХ

Фото: Towfiqu barbhuiya на Unsplash

Что такое заполнение пробелов?

Представьте себе, что вы начинаете новый поток данных и получаете данные из источника, который вы раньше не анализировали (например, получение информации из API или существующей таблицы Hive). Теперь ваша задача – сделать так, чтобы это казалось, будто вы собрали эти данные давно. Вот пример того, что мы называем заполнением пробелов в инженерии данных.

Но это не только о запуске нового потока данных или создании таблицы. У вас может быть таблица, которая уже собирает данные некоторое время, и внезапно вам понадобится изменить данные (например, из-за нового определения метрики) или добавить еще данных из нового источника. Или может быть есть некоторая проблема в ваших данных, и вы просто хотите ее исправить. Все эти ситуации являются примерами заполнения пробелов в данных. Общая идея заключается в возвращении “назад” во времени и “заполнении” вашей таблицы некоторыми историческими данными.

На следующей фигуре (Фигура 1) показана простая ситуация с заполнением пробелов. В этом случае ежедневная задача извлекает данные из двух вышестоящих источников (одного для платформы A и другого для платформы B). Набор данных структурирован таким образом, что первое разделение является ‘ds’, а второе разделение (или подразделения) представляет собой платформы. К сожалению, данные за период с 2023–10–03 по 2023–10–05 отсутствуют из-за некоторых проблем. Чтобы исправить этот пробел, была запущена операция заполнения пробелов (задача заполнения пробелов началась с 2023–10–08).

Фигура 1) Простая ситуация с заполнением пробелов

Заполнение пробелов и переоценка

Небольшое предупреждение перед продолжением: в рамках инженерии данных мы обычно сталкиваемся с двумя сценариями: “заполнение пробелов” в таблице или “переоценка” таблицы. Эти процессы, хотя и имеют некоторые сходства, имеют некоторые тонкие различия. Заполнение пробелов как практика заключается в заполнении отсутствующих или неполных данных в наборе данных. Его применение обычно направлено на обновление исторических данных или исправление пробелов. В отличие от этого, переоценка таблицы предполагает…