Эволюция в ETL Как пропуск трансформации улучшает управление данными

Эволюция ETL Как использование технологии трансформации данных совершенствует управление информацией

 

Несколько понятий данных вызывают больше противоречий, чем ETL (извлечение, преобразование, загрузка), техника подготовки данных, которая доминировала в предприятиях в течение нескольких десятилетий. Разработанный в 1970-х годах, ETL проявил себя в эпоху масштабных хранилищ данных и репозиториев. Команды предприятий централизовали данные, наложили системы отчетности и модели науки о данных сверху, и обеспечили самообслуживание доступа к инструментам бизнес-аналитики (BI). Однако ETL сказался возраст в эпоху облачных сервисов, моделей данных и цифровых процессов.  

Поиск запросов, таких как “Является ли ETL все еще актуальным/востребованным/устаревшим/мертвым?”, заполняет результаты в Google. Причина в том, что команды предприятий, работающие с данными, стонут под тяжестью подготовки данных для широкого использования в ролях сотрудников и бизнес-функций. ETL не масштабируется легко для обработки огромных объемов исторических данных, хранящихся в облаке. Он также не обеспечивает получение данных в реальном времени, необходимых для быстрого принятия решений руководством. Кроме того, построение пользовательских API для предоставления приложениям данных создает значительную сложность управления. Не редкость, когда в современных предприятиях установлено от 500 до 1 000 конвейеров по мере того, как они стремятся преобразовать данные и оснащать пользователей самообслуживанием доступа к инструментам бизнес-аналитики. Однако эти API находятся в постоянном состоянии эволюции, так как их необходимо перепрограммировать при изменении данных, которые они извлекают. Понятно, что этот процесс слишком крепкий для многих современных требований к данным, таких как использование на границе. 

Кроме того, возможности приложений эволюционировали. Исходные системы предоставляют бизнес-логику и инструменты для обеспечения качества данных, а потребляющие приложения обеспечивают преобразование данных и создают надежный семантический уровень. Поэтому командам менее выгодно создавать последовательные интерфейсы для перемещения данных в масштабе, их преобразования и загрузки в хранилище данных. 

Два инновационных подхода указывают на возможность обеспечения демократизации данных при одновременном минимизации нагрузки на преобразование. Зеро-ETL делает данные доступными без их перемещения, а обратное ETL перемещает данные в прикладные программы, которым они необходимы, как только они становятся доступными. 

 

Zero ETL сокращает требования к перемещению данных и преобразованию 

 

Zero ETL оптимизирует перемещение небольших наборов данных. С репликацией данных данные перемещаются в облако в состоянии, в котором они находятся, для использования в запросах данных или экспериментах. 

Но что, если команды не хотят вообще перемещать данные?

Виртуализация данных абстрагирует серверы от конечных пользователей. Когда пользователи запрашивают данные из единого источника, эти данные возвращаются им. И с помощью федерации запросов пользователи могут запрашивать данные из нескольких источников. Инструмент объединяет результаты и представляет пользователю интегрированные данные. 

Эти методы называют нулевым ETL, потому что нет необходимости создавать конвейер или преобразовывать данные. Пользователи обрабатывают потребности в качестве данных и агрегацию по мере необходимости. 

Zero ETL идеально подходит для ад-хок-анализа данных в ближайшей перспективе. Выполнение больших запросов к историческим данным может негативно влиять на производительность и увеличивать затраты на хранение данных. Например, многие исполнители в рознице и потребительских товарах используют нулевой ETL для запросов ежедневных транзакционных данных, чтобы сосредоточить маркетинговые и продажные стратегии в периоды пикового спроса, такие как праздники. 

Google Cortex предоставляет ускорители, позволяющие использовать нулевой ETL на данных системы корпоративного планирования SAP. Другие компании, такие как один из крупнейших ритейлеров мира и мировая компания по производству пищевых продуктов и напитков, также приняли методики нулевого ETL. 

Преимущества нулевого ETL включают: 

  • Обеспечение скорости доступа: Использование методов нулевого ETL для предоставления данных для самообслуживания запросов экономит 40-50% времени по сравнению с традиционными методами ETL, так как не требуется создания конвейеров.
  • Снижение требований к хранению данных: При виртуализации данных или федерации запросов данные не перемещаются. Пользователи сохраняют только результаты запросов, что уменьшает требования к хранению данных.
  • Экономия затрат: Команды, использующие методы нулевого ETL, экономят 30-40% на подготовке данных и затратах на хранение по сравнению с традиционным ETL.
  • Улучшение производительности данных: Поскольку пользователи запрашивают только необходимые данные, результаты поставляются на 25% быстрее.  

Чтобы начать работу с нулевым ETL, командам следует оценить, какие сценарии использования наиболее подходят для этой техники, и определить элементы данных, необходимые для ее выполнения. Они также должны настроить свой инструмент нулевого ETL на нужные источники данных. Затем команды извлекают данные, создают активы данных и предоставляют их в использование пользователям. 

 

Использование Reverse ETL для подачи данных приложениям по требованию

 

Техники Reverse ETL упрощают передачу данных downstream приложениям. Вместо использования REST API или точек доступа и написания скриптов для извлечения данных, команды используют инструменты Reverse ETL для передачи данных в бизнес-процессы вовремя и полностью.

Использование Reverse ETL обеспечивает следующие преимущества:

  • Сокращение времени и усилий: Использование Reverse ETL для ключевых случаев использования позволяет сократить время и усилия для доступа к данным для ключевых случаев использования на 20-25%. Ведущая круизная компания использует Reverse ETL для инициатив в области цифрового маркетинга.
  • Улучшение доступности данных: Команды имеют большую уверенность, что они будут иметь доступ к данным, необходимым для ключевых инициатив, поскольку 90-95% целевых данных доставляются вовремя.
  • Уменьшение затрат: Процессы Reverse ETL сокращают необходимость в API, которые требуют специализированных навыков программирования и увеличивают сложность управления. В результате команды снижают затраты на данные на 20-25%.

Чтобы начать работу с Reverse ETL, командам по обработке данных следует оценивать случаи использования, которые требуют передачи данных по требованию. Затем они определяют частоту и объем данных, которые должны быть доставлены, и выбирают соответствующие инструменты для обработки этих объемов данных. Затем они направляют активы данных в хранилище данных в потребительские системы назначения. Команды должны создать прототип с одной загрузкой данных, чтобы измерить эффективность и масштабировать процессы.

 

Чтобы достичь успеха с данными, используйте разнообразные техники подготовки

 

Инструменты без ETL и Reverse ETL предоставляют командам свежие варианты обслуживания данных пользователям и приложениям. Они могут анализировать такие факторы, как требования случаев использования, объемы данных, временные рамки доставки и факторы стоимости, чтобы выбрать наилучший вариант доставки данных, будь то традиционное ETL, нулевое ETL или Reverse ETL.

Партнеры поддерживают эти усилия, предоставляя информацию о лучших техниках и инструментах для удовлетворения функциональных и нефункциональных требований, предоставляя весовую оценку, проводя проверку ценности (POV) с победившим инструментом, а затем операционализируя инструмент для большего числа случаев использования.

С помощью ETL без ETL и Reverse ETL команды данных достигают своих целей в обеспечении пользователей и приложений данными, которые им необходимы, когда и где им это нужно, достигая экономической эффективности и повышения производительности, избегая головной боли от трансформации.

[Arnab Sen](https://www.linkedin.com/in/arnab-sen-60b92624/) – опытный профессионал с опытом работы более 16 лет в области технологий и принятия решений. В настоящее время он занимает должность вице-президента по инженерии данных в Tredence, ведущей компании по анализу данных, где он помогает организациям разрабатывать свои стратегии AI-ML/Cloud/Big-data. Благодаря своему опыту в монетизации данных, Арнаб раскрывает скрытые возможности данных для приведения в действие деловых преобразований в клиентах B2B и B2C из различных отраслей. Страсть Арнаба к формированию команды и способность масштабировать людей, процессы и наборы навыков помогли ему успешно управлять портфелями в несколько миллионов долларов в различных отраслях, включая телекоммуникации, розничную торговлю и финансовые услуги. Он ранее занимал должности в Mu Sigma и IGate, где он сыграл важную роль в решении проблем клиентов путем разработки инновационных решений. Отличные лидерские качества Арнаба и глубокие знания в области домена принесли ему место в совете Forbes Tech Council.