Понимание цепочки данных от источника к назначению

Понимание потока данных от источника к получателю

Я вчера пошел в ресторан “Anthera”. После того, как съел свой четвертый или пятый кусочек перцевого курицы, который, кстати, был восхитительным, я начал восхищаться нашей способностью переваривать и наслаждаться этим. Способ, которым мы используем наш рот, чтобы пробовать, перемалывать, измельчать и глотать пищу, а затем наше тело превращает ее в пищу, помогает нам переваривать ее и фильтровать отходы с помощью почек – это такой хорошо определенный процесс, в котором каждая часть имеет важную функцию. Это заставляет меня думать о том, что во Вселенной все создано по дизайну, а не выбору;

Точно так же, как у нашего тела есть четкий процесс, у проекта данных должен быть ясный поток – вот где появляется Data Lineage (линия данных). Дизайн и архитектура играют большую роль в проектах данных. Работая над проектом прямого вещания данных, даже снижение задержки на 30 секунд может принести миллионы прибыли фирме. Все это станет возможным благодаря правильной линии данных (DL) – путем понимания и проектирования потока от начала до конца, приступим к изучению Data Lineage.

Что такое Data Lineage?

Data Lineage – это процесс понимания, записи и визуализации данных по мере их движения от начала до конца. Он стремится показать полный поток данных от источников данных до их использования. Это включает в себя все преобразования, которые данные прошли по пути и то, как они хранятся. Data Lineage помогает поддерживать качество, надежность и согласованность данных.

  • Качество данных: Data Lineage помогает выявлять и исправлять любые несоответствия, ошибки или неточности, которые могут возникнуть в ходе движения данных, обеспечивая качество данных.
  • Надежность: Он минимизирует риски и сбои, связанные с изменениями в процессе, и помогает устранить последствия, вызванные преобразованием данных.
  • Согласованность: Зная, как данные перемещаются от источников к таблицам, Data Lineage предоставляет четкую карту движения данных в системе со временем, улучшая согласованность.

Кроме того, это помогает оптимизировать процессы, выявляя узкие места, избыточности или неэффективные пути. Вместе с этим Data Lineage помогает принимать обоснованные решения на этапе разработки.

Data Lineage

Техники и примеры Data Lineage

Хотя Data Lineage может быть выполнена просто с помощью правильной документации или визуальных диаграмм потока, существуют некоторые продвинутые техники, которые могут быть применены в процессе:

  • Основанная на шаблонах линейная зависимость: Основываясь на узнаваемых шаблонах в преобразованиях данных или входных потоках данных, линейная зависимость данных может быть выполнена с использованием шаблонов. Например, определение преобразований данных, связанных с демографическими операциями.
  • Маркировка данных: Применение метаданных к наборам данных, колонкам или отдельным элементам данных для их категоризации и отслеживания на протяжении жизненного цикла данных. Например, данные о клиентах могут быть помечены как «PII» (личная идентифицирующая информация) или «чувствительная информация», чтобы обеспечить правильную обработку и соответствие требованиям.
  • Правило-ориентированная линейность: Определение правил, которые явно описывают, как данные могут быть преобразованы или использованы. Например, правило стандартизации телефонных номеров клиентов перед использованием в системе.
  • Граф зависимостей данных: Представление линейности данных в виде графа, где узлы являются сущностями данных, а ребра – преобразования или связи между ними.

Как начать работу с Data Lineage?

Общий регламент общей охраны данных (GDPR), который вступил в силу в мае 2018 года, предлагает организациям уделять внимание линейности данных. Со множеством преимуществ и множеством техник линейности, чтобы начать работу с линейностью данных, вот некоторые советы:

  • Определите элементы данных: Свяжитесь с бизнес-пользователями и ясно понимайте процесс от начала до конца, чтобы выявить критические точки для бизнес-функции.
  • Отследите происхождение: Отследите исходные данные или процесс и ясно его понимайте.
  • Записывайте и связывайте источники: Создавайте визуальный поток для представления источников данных и элементов связи, которые можно объединить.
  • Создайте карту: Создайте карты для каждой системы и общую карту всей картины.

Сегодня на рынке есть комплексные решения качества данных, включающие линию данных. Эти инструменты могут легко сортировать и организовывать ваши данные – экономить время и деньги, а также давать заметные результаты.

Линия данных против Источник данных против Управление данными

Линия данных – это запись о том, как данные преобразуются и мигрируются от источника к конечному пункту, а Источник данных – это документация о происхождении, доступе, владении, изменении и истории элемента данных. Этот процесс помогает подтвердить целостность и точность данных, и Управление данными охватывает полный набор политик и процессов управления качеством данных, конфиденциальностью и соответствием.

Линия данных и происхождение данных гарантируют, что вы всегда знаете, где данные были получены и как они мигрировали и преобразовывались до пункта назначения. Тем временем, управление гарантирует, что сбор данных и хранение осуществляется по стандартным правилам и предопределенным процессам и передовым практикам.

Завершающее примечание: В связи с изменениями сотрудников, сокращениями и организационными изменениями, линия данных может выступать в роли руководителя, объясняющего историю проекта. Более того, когда линия данных, происхождение и управление используются вместе правильным образом, это очень помогает в обеспечении надежности и согласованности данных…

Убедитесь, что вы внедрите это, если еще не внедрено в вашей работе…

Счастливого обучения… Муттинени Сай Рохит Подпись…