Современное хранилище данных

Современное хранилище данных эффективное решение для хранения информации

Современный дизайн платформы данных

Фото: Nubelson Fernandes на Unsplash

В этой статье я постараюсь более подробно рассмотреть преимущества современных решений для хранилища данных (DWH) по сравнению с другими типами архитектур платформы данных. Осмелюсь сказать, что DWH на данный момент является самой популярной платформой среди инженеров данных. Она предлагает бесценные преимущества по сравнению с другими типами решений, но также имеет некоторые известные ограничения. Хотите научиться инжинирингу данных? Эта статья – хорошее место для начала, потому что она объясняет основы инжиниринга данных – решение DWH в центре схемы архитектуры. Мы узнаем, как данные могут быть загружены и преобразованы в различных DWH, доступных на рынке. Я также хотел бы начать обсуждение с опытными пользователями. Было бы замечательно узнать ваше мнение и услышать, что вы скажете по этой теме.

Основные характеристики хранилища данных

Современное хранилище данных (DWH) – это серверный, распределенный движок SQL (BigQuery, Snowflake, Redshift, Microsoft Azure Synapse, Teradata.). Это архитектура данных, где данные хранятся в хранилище данных, и мы можем использовать все преимущества использования нормализованных наборов данных в формате звездной схемы [2], потому что большинство современных хранилищ данных являются распределенными и масштабируются хорошо, а это означает, что нет необходимости беспокоиться о ключах таблиц и индексах. Это хорошо подходит для аналитических запросов по большим данным.

Типы архитектуры платформы данных

Насколько хорошо она отвечает вашим бизнес-потребностям? Дилемма выбора.

towardsdatascience.com

Большинство современных решений хранилищ данных могут обрабатывать структурированные и неструктурированные данные и очень удобны для аналитиков данных с навыками SQL.

Жизненный цикл данных DWH. Изображение автора.

Современные хранилища данных легко интегрируются с системами бизнес-аналитики, такими как Looker, Tableau, Sisense и Mode, которые используют ANSI-SQL для обработки данных. На приведенной ниже диаграмме я попытался показать общий путь преобразования данных и используемые инструменты (не полный список, конечно). Мы можем видеть, что…