Состояние потоковых данных для цифровых нативов (родившихся в облаке)

Состояние потоковых данных для цифровых нативов

В этом блоге рассматривается состояние потоковой обработки данных в 2023 году для цифровых «родившихся в облаке» представителей молодого поколения. Эволюция цифровых сервисов и новые бизнес-модели требуют реального времени на всех уровнях, современных мобильных приложений и интеграции с передовыми технологиями, такими как полностью управляемые облачные сервисы для быстрого выхода на рынок, 5G для низкой задержки или дополненная реальность для инноваций. Потоковая обработка данных позволяет интегрировать и коррелировать данные в реальном времени любого масштаба для улучшения самых инновационных приложений с использованием Apache Kafka.

Я рассматриваю тенденции для цифровых «родившихся в облаке» представителей, показывая, как потоковая обработка данных помогает как средство развития бизнеса, включая истории клиентов New Relic, Wix, Expedia, Apna, Grab и других. Предоставляется полный набор слайдов и видеозапись по запросу.

Цифровые «родившиеся в облаке» представители – это технологические компании, основанные на данных и работающие в облаке. Решения SaaS созданы на основе облачной инфраструктуры, которая обеспечивает эластичность и гибкость операций и масштабирования. Искусственный интеллект и машинное обучение улучшают бизнес-процессы, пока данные проходят через системы бэкэнда.

Data-Driven Enterprise в 2023 году

McKinsey and Company опубликовала отличную статью о семи характеристиках, которые определяют ориентированную на данные компанию:

  1. Данные встраиваются в каждое решение, взаимодействие и процесс
  2. Данные обрабатываются и поставляются в реальном времени
  3. Гибкие хранилища данных позволяют интегрированные, готовые к использованию данные
  4. Модель работы с данными рассматривается как продукт
  5. Роль главного директора по данным расширяется для создания ценности
  6. Членство в экосистеме данных становится нормой
  7. Управление данными ставится на первое место и автоматизируется для обеспечения конфиденциальности, безопасности и устойчивости

Эта цитата из McKinsey and Company точно отражает ценность потоковой обработки данных для использования данных в нужное время и в правильном контексте. Ниже приводятся примеры успешных историй, основанных на данных и использующих эти характеристики.

Цифровые «родившиеся в облаке» представители

Цифровое предприятие может иметь множество значений. IDC дает отличное определение:

“IDC определяет цифровые предприятия (DNBs) как компании, основанные на современных облачных технологиях, использующие данные и искусственный интеллект во всех аспектах своей деятельности, от логистики до бизнес-моделей и взаимодействия с клиентами. Все основные процессы, приносящие доход или ценность, зависят от цифровых технологий”.

Компании родились в облаке, используют полностью управляемые сервисы и, следовательно, инновационны и быстро выходят на рынок.

Искусственный интеллект и машинное обучение (за границами шума)

«ChatGPT, хотя и круто, это только начало; предприятия используют генеративный искусственный интеллект гораздо более сложным образом», говорит Gartner. Я полностью согласен. Но еще более интересно то, что машинное обучение (часть искусственного интеллекта, готовая для предприятий) уже используется во многих компаниях.

Все говорят о генеративном искусственном интеллекте (GenAI) в наше время, но я предпочитаю говорить о успешных реальных историях, которые уже много лет используют аналитические модели для обнаружения мошенничества, увеличения продаж клиентам или прогнозирования отказов оборудования. GenAI – это «просто» еще одна более продвинутая модель, которую можно интегрировать в вашу IT-инфраструктуру и бизнес-процессы таким же образом.

Потоковая обработка данных в технологических компаниях цифровых «родившихся в облаке» представителях

Принятие тенденций во всех отраслях возможно только в том случае, если предприятия могут правильно предоставлять и коррелировать информацию в нужном контексте. Работа в реальном времени, что означает использование информации в миллисекундах, секундах или минутах, почти всегда лучше, чем обработка данных позже (что бы это ни значило):

Цифровые «родившиеся в облаке» представители объединяют все возможности потоковой обработки данных: передача сообщений в режиме реального времени любого масштаба с хранилищем для истинного разделения, возможности интеграции данных и их корреляции.

Потоковая обработка данных с использованием экосистемы Apache Kafka и облачных сервисов используется во всей цепочке поставок любой отрасли. Вот лишь несколько примеров:

Эластичное масштабирование с облачной инфраструктурой

Один из самых значительных преимуществ облачных SaaS-предложений – это возможность эластичного масштабирования «из коробки». Технологические компании могут начать новые проекты с небольшим объемом и платить по мере использования. Если проект успешен или если наступают пиковые нагрузки в отрасли (например, Черная пятница или рождественский сезон в рознице), облачная инфраструктура масштабируется вверх и возвращается обратно после пика:

Нет необходимости менять архитектуру от концепции до экстремального масштаба. Полностью управляемый SaaS Confluent для Apache Kafka является отличным примером. Узнайте, как масштабировать Apache Kafka до 10+ ГБ в секунду в Confluent Cloud без необходимости перестраивать ваши приложения.

Потоковая передача данных + ИИ/Машинное обучение = Реальное время

Комбинация потоковой передачи данных с помощью Kafka и машинного обучения с использованием TensorFlow или других фреймворков МО не является новой. Я исследовал, как “Создавать и развертывать масштабируемое машинное обучение в производстве с помощью Apache Kafka” в 2017 году, то есть шесть лет назад.

С тех пор я написал много статей и поддерживал различные предприятия в развертывании потоковой передачи данных и машинного обучения. Вот пример такой архитектуры:

Data Mesh для декуплирования, гибкости и фокуса на продуктах данных

Цифровые представители не полагаются на монолитную, собственную и не гибкую легаси-инфраструктуру. Вместо этого, технологические компании начинают с нуля с современной архитектурой. Доменно-ориентированный дизайн и микросервисы объединяются в data mesh, где бизнес-подразделения сосредотачиваются на решении бизнес-задач с помощью продуктов данных:

Цифровые представители используют тенденции корпоративной архитектуры для повышения стоимости, гибкости, безопасности и задержки. Четыре основные темы, которые я наблюдаю в эти дни в технологических компаниях:

  • Децентрализация с помощью data mesh
  • Архитектура Kappa, заменяющая архитектуру Lambda
  • Глобальная потоковая передача данных
  • ИИ/Машинное обучение с помощью потоковой передачи данных

Давайте более подробно рассмотрим некоторые корпоративные архитектуры, которые используют потоковую передачу данных.

Децентрализация с помощью Data Mesh

Нет единой технологии или продукта для data mesh! Однако, сердцем децентрализованной инфраструктуры data mesh должна быть платформа реального времени, надежная и масштабируемая.

Потоковая передача данных с помощью Apache Kafka является идеальным фундаментом для data mesh: “тупые трубы и умные конечные точки” действительно декуплируют независимые приложения. Дизайн, ориентированный на домены, позволяет командам сосредоточиться на продуктах данных:

В отличие от озера данных или хранилища данных, платформа потоковой передачи данных является реальным временем, масштабируемой и надежной – это уникальное преимущество для создания децентрализованной data mesh.

Архитектура Kappa, заменяющая архитектуру Lambda

Архитектура Kappa – это событийная архитектура программного обеспечения, которая может обрабатывать все данные на всех масштабах в режиме реального времени для транзакционных и аналитических нагрузок.

Главная идея архитектуры Kappa состоит в том, что вы можете выполнять обработку в реальном времени и пакетную обработку с использованием одного стека технологий. Сердце инфраструктуры – потоковая архитектура.

В отличие от архитектуры Lambda, в этом подходе вы повторно обрабатываете только при изменении кода обработки и когда вам нужно пересчитать результаты.

Глобальная потоковая передача данных

Мультикластерная и кросс-дата-центровая развертка Apache Kafka стала нормой, а не исключением.

Несколько сценариев требуют мультикластерной развертки Kafka с определенными требованиями и компромиссами, включая резервное копирование, агрегацию для аналитики, миграцию в облако, критически важные развертки, охватывающие несколько регионов, и глобальную Kafka.

Обработка естественного языка (NLP) с потоковой передачей данных для генеративного ИИ в реальном времени (GenAI)

Обработка естественного языка (NLP) помогает многим проектам в реальном мире для автоматизации службы поддержки, взаимодействия с клиентами с помощью чат-бота, модерации контента в социальных сетях и многих других случаях использования. Генеративный ИИ (GenAI) – это “просто” последнее поколение этих аналитических моделей. Многие предприятия многие годы сочетали NLP с потоковой передачей данных для бизнес-процессов в реальном времени.

Apache Kafka стал преобладающим слоем оркестрации в этих платформах машинного обучения для интеграции различных источников данных, обработки в масштабе и вывода моделей в реальном времени.

Вот архитектура, которая показывает, как команды легко добавляют генеративный ИИ и другие модели машинного обучения (например, большие языковые модели, LLM) в свою существующую архитектуру потоковых данных:

Время выхода на рынок критично. Для ИИ не требуется полностью новая корпоративная архитектура. Настоящая декуплетизация позволяет добавлять новые приложения/технологии и встраивать их в существующие бизнес-процессы.

Прекрасным примером является Expedia: онлайн-туристическая компания добавила чат-бота к существующему сценарию колл-центра, чтобы снизить затраты, увеличить время ответа и сделать клиентов счастливее.

Новые истории клиентов о цифровых индигенах, использующих потоковую передачу данных

Так много инноваций происходит с потоковой передачей данных. Цифровые индигены лидируют в гонке. Автоматизация и цифровизация меняют то, как технологические компании создают совершенно новые бизнес-модели.

Большинство цифровых индигенов используют подход “облачное сначала” для улучшения времени выхода на рынок, увеличения гибкости и фокусирования на бизнес-логике, вместо работы с ИТ-инфраструктурой. Упругая масштабируемость становится еще более важной, когда вы начинаете маленьким, но думаете большим и глобальным с самого начала.

Вот несколько историй клиентов из телекоммуникационных компаний по всему миру:

  • New Relic: Платформа наблюдаемости, обрабатывающая до 7 миллиардов точек данных в минуту для анализа в реальном времени и анализа исторических данных.
  • Wix: Сервисы веб-разработки с онлайн-инструментами перетаскивания и создания с глобальной сетью данных.
  • Apna: Самая крупная платформа по найму в Индии, работающая на основе ИИ для соответствия потребностям клиента с приложениями.
  • Expedia: Онлайн-туристическая платформа, использующая потоковую передачу данных для обслуживания чат-бота с использованием сложных технологий, таких как выполнение, понимание естественного языка и аналитика в реальном времени.
  • Alex Bank: Цифровой и облачно-ориентированный банк, использующий данные в режиме реального времени для обеспечения нового цифрового банковского опыта.
  • Grab: Азиатская служба мобильности, построившая платформу кибербезопасности для мониторинга 130 млн устройств и ежедневного генерирования более 20 млн решений по риску на основе ИИ.

Ресурсы для дальнейшего изучения

Этот блог-пост является только отправной точкой. Узнайте больше о потоковой передаче данных и цифровых индигенах в следующей записи вебинара по требованию, связанной презентации и других ресурсах, включая крутые видеоролики с использованием светового стола о примерах использования.

Видеозапись по требованию

Видеозапись исследует тенденции и архитектуры телекоммуникационной отрасли для потоковой передачи данных. Основное внимание уделяется примерам использования потоковой передачи данных. Ознакомьтесь с нашей видеозаписью по требованию:

Слайды

Если вы предпочитаете учиться на слайдах, ознакомьтесь с материалами, использованными для вышеуказанной видеозаписи:

Слайды: Состояние Apache Kafka для цифровых индигенов в 2023 году

Исследования примеров использования потоковой передачи данных и видеоролики с использованием светового стола о цифровых индигенах

Состояние потоковой передачи данных для цифровых индигенов в 2023 году увлекательно. Каждый месяц появляются новые примеры использования и исследования. Это включает лучшее управление данными во всей организации, сбор и обработку данных в режиме реального времени из сетевой инфраструктуры и мобильных приложений, обмен данными и партнерство B2B с новыми бизнес-моделями и многие другие сценарии.

Мы записали видеоролики с использованием светового стола, показывающие ценность потоковой передачи данных простым и эффективным способом. Эти пятиминутные видеоролики исследуют бизнес-ценность потоковой передачи данных, связанные архитектуры и истории клиентов. Следите за обновлениями; я обновлю ссылки в ближайшие несколько недель и опубликую отдельный блог-пост для каждой истории и видеоролика с использованием светового стола.

И это только начало. Каждый месяц мы будем говорить о состоянии потоковой передачи данных в различных отраслях. Производство было первым. Финансовые услуги вторыми, затем розничная торговля, телекоммуникационные компании, цифровые индигены, игровая индустрия и так далее.