Состояние потоковых данных для цифровых нативов (родившихся в облаке)
Состояние потоковых данных для цифровых нативов
В этом блоге рассматривается состояние потоковой обработки данных в 2023 году для цифровых «родившихся в облаке» представителей молодого поколения. Эволюция цифровых сервисов и новые бизнес-модели требуют реального времени на всех уровнях, современных мобильных приложений и интеграции с передовыми технологиями, такими как полностью управляемые облачные сервисы для быстрого выхода на рынок, 5G для низкой задержки или дополненная реальность для инноваций. Потоковая обработка данных позволяет интегрировать и коррелировать данные в реальном времени любого масштаба для улучшения самых инновационных приложений с использованием Apache Kafka.
Я рассматриваю тенденции для цифровых «родившихся в облаке» представителей, показывая, как потоковая обработка данных помогает как средство развития бизнеса, включая истории клиентов New Relic, Wix, Expedia, Apna, Grab и других. Предоставляется полный набор слайдов и видеозапись по запросу.
Основные тенденции для цифровых «родившихся в облаке» представителей
Цифровые «родившиеся в облаке» представители – это технологические компании, основанные на данных и работающие в облаке. Решения SaaS созданы на основе облачной инфраструктуры, которая обеспечивает эластичность и гибкость операций и масштабирования. Искусственный интеллект и машинное обучение улучшают бизнес-процессы, пока данные проходят через системы бэкэнда.
Data-Driven Enterprise в 2023 году
McKinsey and Company опубликовала отличную статью о семи характеристиках, которые определяют ориентированную на данные компанию:
- Овладение Maplotlib Полное руководство по визуализации данных
- Анализ данных переосмыслен от панелей инструментов до искусственного интеллекта в качестве сопилота
- Джей Мишра, главный операционный директор Astera Software – серия интервью
- Данные встраиваются в каждое решение, взаимодействие и процесс
- Данные обрабатываются и поставляются в реальном времени
- Гибкие хранилища данных позволяют интегрированные, готовые к использованию данные
- Модель работы с данными рассматривается как продукт
- Роль главного директора по данным расширяется для создания ценности
- Членство в экосистеме данных становится нормой
- Управление данными ставится на первое место и автоматизируется для обеспечения конфиденциальности, безопасности и устойчивости
Эта цитата из McKinsey and Company точно отражает ценность потоковой обработки данных для использования данных в нужное время и в правильном контексте. Ниже приводятся примеры успешных историй, основанных на данных и использующих эти характеристики.
Цифровые «родившиеся в облаке» представители
Цифровое предприятие может иметь множество значений. IDC дает отличное определение:
“IDC определяет цифровые предприятия (DNBs) как компании, основанные на современных облачных технологиях, использующие данные и искусственный интеллект во всех аспектах своей деятельности, от логистики до бизнес-моделей и взаимодействия с клиентами. Все основные процессы, приносящие доход или ценность, зависят от цифровых технологий”.
Компании родились в облаке, используют полностью управляемые сервисы и, следовательно, инновационны и быстро выходят на рынок.
Искусственный интеллект и машинное обучение (за границами шума)
«ChatGPT, хотя и круто, это только начало; предприятия используют генеративный искусственный интеллект гораздо более сложным образом», говорит Gartner. Я полностью согласен. Но еще более интересно то, что машинное обучение (часть искусственного интеллекта, готовая для предприятий) уже используется во многих компаниях.
Все говорят о генеративном искусственном интеллекте (GenAI) в наше время, но я предпочитаю говорить о успешных реальных историях, которые уже много лет используют аналитические модели для обнаружения мошенничества, увеличения продаж клиентам или прогнозирования отказов оборудования. GenAI – это «просто» еще одна более продвинутая модель, которую можно интегрировать в вашу IT-инфраструктуру и бизнес-процессы таким же образом.
Потоковая обработка данных в технологических компаниях цифровых «родившихся в облаке» представителях
Принятие тенденций во всех отраслях возможно только в том случае, если предприятия могут правильно предоставлять и коррелировать информацию в нужном контексте. Работа в реальном времени, что означает использование информации в миллисекундах, секундах или минутах, почти всегда лучше, чем обработка данных позже (что бы это ни значило):
Цифровые «родившиеся в облаке» представители объединяют все возможности потоковой обработки данных: передача сообщений в режиме реального времени любого масштаба с хранилищем для истинного разделения, возможности интеграции данных и их корреляции.
Потоковая обработка данных с использованием экосистемы Apache Kafka и облачных сервисов используется во всей цепочке поставок любой отрасли. Вот лишь несколько примеров:
Эластичное масштабирование с облачной инфраструктурой
Один из самых значительных преимуществ облачных SaaS-предложений – это возможность эластичного масштабирования «из коробки». Технологические компании могут начать новые проекты с небольшим объемом и платить по мере использования. Если проект успешен или если наступают пиковые нагрузки в отрасли (например, Черная пятница или рождественский сезон в рознице), облачная инфраструктура масштабируется вверх и возвращается обратно после пика:
Нет необходимости менять архитектуру от концепции до экстремального масштаба. Полностью управляемый SaaS Confluent для Apache Kafka является отличным примером. Узнайте, как масштабировать Apache Kafka до 10+ ГБ в секунду в Confluent Cloud без необходимости перестраивать ваши приложения.
Потоковая передача данных + ИИ/Машинное обучение = Реальное время
Комбинация потоковой передачи данных с помощью Kafka и машинного обучения с использованием TensorFlow или других фреймворков МО не является новой. Я исследовал, как “Создавать и развертывать масштабируемое машинное обучение в производстве с помощью Apache Kafka” в 2017 году, то есть шесть лет назад.
С тех пор я написал много статей и поддерживал различные предприятия в развертывании потоковой передачи данных и машинного обучения. Вот пример такой архитектуры:
Data Mesh для декуплирования, гибкости и фокуса на продуктах данных
Цифровые представители не полагаются на монолитную, собственную и не гибкую легаси-инфраструктуру. Вместо этого, технологические компании начинают с нуля с современной архитектурой. Доменно-ориентированный дизайн и микросервисы объединяются в data mesh, где бизнес-подразделения сосредотачиваются на решении бизнес-задач с помощью продуктов данных:
Тренды архитектуры для потоковой передачи данных, используемые цифровыми представителями
Цифровые представители используют тенденции корпоративной архитектуры для повышения стоимости, гибкости, безопасности и задержки. Четыре основные темы, которые я наблюдаю в эти дни в технологических компаниях:
- Децентрализация с помощью data mesh
- Архитектура Kappa, заменяющая архитектуру Lambda
- Глобальная потоковая передача данных
- ИИ/Машинное обучение с помощью потоковой передачи данных
Давайте более подробно рассмотрим некоторые корпоративные архитектуры, которые используют потоковую передачу данных.
Децентрализация с помощью Data Mesh
Нет единой технологии или продукта для data mesh! Однако, сердцем децентрализованной инфраструктуры data mesh должна быть платформа реального времени, надежная и масштабируемая.
Потоковая передача данных с помощью Apache Kafka является идеальным фундаментом для data mesh: “тупые трубы и умные конечные точки” действительно декуплируют независимые приложения. Дизайн, ориентированный на домены, позволяет командам сосредоточиться на продуктах данных:
В отличие от озера данных или хранилища данных, платформа потоковой передачи данных является реальным временем, масштабируемой и надежной – это уникальное преимущество для создания децентрализованной data mesh.
Архитектура Kappa, заменяющая архитектуру Lambda
Архитектура Kappa – это событийная архитектура программного обеспечения, которая может обрабатывать все данные на всех масштабах в режиме реального времени для транзакционных и аналитических нагрузок.
Главная идея архитектуры Kappa состоит в том, что вы можете выполнять обработку в реальном времени и пакетную обработку с использованием одного стека технологий. Сердце инфраструктуры – потоковая архитектура.
В отличие от архитектуры Lambda, в этом подходе вы повторно обрабатываете только при изменении кода обработки и когда вам нужно пересчитать результаты.
Глобальная потоковая передача данных
Мультикластерная и кросс-дата-центровая развертка Apache Kafka стала нормой, а не исключением.
Несколько сценариев требуют мультикластерной развертки Kafka с определенными требованиями и компромиссами, включая резервное копирование, агрегацию для аналитики, миграцию в облако, критически важные развертки, охватывающие несколько регионов, и глобальную Kafka.
Обработка естественного языка (NLP) с потоковой передачей данных для генеративного ИИ в реальном времени (GenAI)
Обработка естественного языка (NLP) помогает многим проектам в реальном мире для автоматизации службы поддержки, взаимодействия с клиентами с помощью чат-бота, модерации контента в социальных сетях и многих других случаях использования. Генеративный ИИ (GenAI) – это “просто” последнее поколение этих аналитических моделей. Многие предприятия многие годы сочетали NLP с потоковой передачей данных для бизнес-процессов в реальном времени.
Apache Kafka стал преобладающим слоем оркестрации в этих платформах машинного обучения для интеграции различных источников данных, обработки в масштабе и вывода моделей в реальном времени.
Вот архитектура, которая показывает, как команды легко добавляют генеративный ИИ и другие модели машинного обучения (например, большие языковые модели, LLM) в свою существующую архитектуру потоковых данных:
Время выхода на рынок критично. Для ИИ не требуется полностью новая корпоративная архитектура. Настоящая декуплетизация позволяет добавлять новые приложения/технологии и встраивать их в существующие бизнес-процессы.
Прекрасным примером является Expedia: онлайн-туристическая компания добавила чат-бота к существующему сценарию колл-центра, чтобы снизить затраты, увеличить время ответа и сделать клиентов счастливее.
Новые истории клиентов о цифровых индигенах, использующих потоковую передачу данных
Так много инноваций происходит с потоковой передачей данных. Цифровые индигены лидируют в гонке. Автоматизация и цифровизация меняют то, как технологические компании создают совершенно новые бизнес-модели.
Большинство цифровых индигенов используют подход “облачное сначала” для улучшения времени выхода на рынок, увеличения гибкости и фокусирования на бизнес-логике, вместо работы с ИТ-инфраструктурой. Упругая масштабируемость становится еще более важной, когда вы начинаете маленьким, но думаете большим и глобальным с самого начала.
Вот несколько историй клиентов из телекоммуникационных компаний по всему миру:
- New Relic: Платформа наблюдаемости, обрабатывающая до 7 миллиардов точек данных в минуту для анализа в реальном времени и анализа исторических данных.
- Wix: Сервисы веб-разработки с онлайн-инструментами перетаскивания и создания с глобальной сетью данных.
- Apna: Самая крупная платформа по найму в Индии, работающая на основе ИИ для соответствия потребностям клиента с приложениями.
- Expedia: Онлайн-туристическая платформа, использующая потоковую передачу данных для обслуживания чат-бота с использованием сложных технологий, таких как выполнение, понимание естественного языка и аналитика в реальном времени.
- Alex Bank: Цифровой и облачно-ориентированный банк, использующий данные в режиме реального времени для обеспечения нового цифрового банковского опыта.
- Grab: Азиатская служба мобильности, построившая платформу кибербезопасности для мониторинга 130 млн устройств и ежедневного генерирования более 20 млн решений по риску на основе ИИ.
Ресурсы для дальнейшего изучения
Этот блог-пост является только отправной точкой. Узнайте больше о потоковой передаче данных и цифровых индигенах в следующей записи вебинара по требованию, связанной презентации и других ресурсах, включая крутые видеоролики с использованием светового стола о примерах использования.
Видеозапись по требованию
Видеозапись исследует тенденции и архитектуры телекоммуникационной отрасли для потоковой передачи данных. Основное внимание уделяется примерам использования потоковой передачи данных. Ознакомьтесь с нашей видеозаписью по требованию:
Слайды
Если вы предпочитаете учиться на слайдах, ознакомьтесь с материалами, использованными для вышеуказанной видеозаписи:
Слайды: Состояние Apache Kafka для цифровых индигенов в 2023 году
Исследования примеров использования потоковой передачи данных и видеоролики с использованием светового стола о цифровых индигенах
Состояние потоковой передачи данных для цифровых индигенов в 2023 году увлекательно. Каждый месяц появляются новые примеры использования и исследования. Это включает лучшее управление данными во всей организации, сбор и обработку данных в режиме реального времени из сетевой инфраструктуры и мобильных приложений, обмен данными и партнерство B2B с новыми бизнес-моделями и многие другие сценарии.
Мы записали видеоролики с использованием светового стола, показывающие ценность потоковой передачи данных простым и эффективным способом. Эти пятиминутные видеоролики исследуют бизнес-ценность потоковой передачи данных, связанные архитектуры и истории клиентов. Следите за обновлениями; я обновлю ссылки в ближайшие несколько недель и опубликую отдельный блог-пост для каждой истории и видеоролика с использованием светового стола.
И это только начало. Каждый месяц мы будем говорить о состоянии потоковой передачи данных в различных отраслях. Производство было первым. Финансовые услуги вторыми, затем розничная торговля, телекоммуникационные компании, цифровые индигены, игровая индустрия и так далее.