Расшифровать заполнение данных обратно

Заполнение данных обратно расшифровка и применение

Давайте поговорим о кошмаре для инженеров по данным

Создано автором

В качестве инженеров по данным, мы сталкиваемся с уникальными проблемами каждый день. Но если есть одна пугающая задача, которая выделяется, это обратное заполнение (backfill). Неправильное обратное заполнение означает чрезмерное время обработки, загрязнение данных и значительные облачные счета. И да, это также означает, что вам нужно выполнить еще одну задачу по обратному заполнению, чтобы исправить это.

Завершение вашего первого успешного обратного заполнения данных – это обряд прохождения для инженеров по данным. – Dagster

Для успешного выполнения задачи обратного заполнения требуется набор навыков инженерии данных, таких как знание предметной области для проверки результатов, опыт работы с инструментами для выполнения задач по обратному заполнению и глубокое понимание базы данных для оптимизации процесса. Когда все эти элементы переплетены внутри одной задачи, могут возникнуть проблемы.

В этой статье мы рассмотрим концепцию обратного заполнения данных, его необходимость и эффективные методы реализации. Независимо от того, являетесь ли вы начинающим в обратном заполнении данных или тем, кто часто чувствует панику по таким задачам, эта статья успокоит ваш ум и поможет вам вернуть уверенность в себе.

Что такое обратное заполнение (backfill)?

Обратное заполнение (backfill) – это процесс заполнения отсутствующих данных из прошлого в новую таблицу, которая раньше не существовала, или замены старых данных новыми записями. Обычно это не повторяющаяся задача и необходима только для конвейеров данных, которые обновляют таблицу инкрементально.

Разница между обычной задачей и задачей по обратному заполнению (создано автором)

Например, таблица разделена по столбцу date. Обычная ежедневная задача обновляет только последние 2 раздела. В отличие от этого, задача по обратному заполнению может обновлять разделы вплоть до первого в таблице. Если обычная задача обновляет всю таблицу каждый раз, задача по обратному заполнению становится необязательной, так как исторические данные будут естественным образом обновляться через обычную задачу.

Итак, когда нам нужно выполнять обратное заполнение?

В общем случае, есть несколько распространенных сценариев. Давайте посмотрим, если вы их узнаете.

  • Создание новой таблицы и желание заполнить отсутствующие исторические данные