Введение в потоковые фреймворки
Изучение потоковых фреймворков введение и основы
Понимание некоторых ключевых характеристик, которые следует учитывать при оценке и сравнении потоковых технологий.
Введение
Поскольку архитектуры данных становятся все более зрелыми, потоковая передача больше не считается роскошью, а становится технологией с широким спектром применения в различных отраслях. Из-за технических и ресурсных ограничений пакетная обработка всегда предпочиталась для обработки и доставки приложений, но с развитием микропакетной и нативной систем потоковой передачи в распределенных системах на основе Apache, высокошкальная потоковая передача теперь стала намного более доступной (рисунок 1).
Некоторые примеры приложений для использования систем потоковой передачи могут быть обработка: данных транзакций для обнаружения аномалий, данных о погоде, данных IoT из удаленных местоположений, отслеживания геолокации и т. д.

Потоковая передача в реальном времени против микропакетной обработки
Существуют два основных типа систем обработки потоковой передачи: микропакетные и в режиме реального времени:
- В системах обработки потоковой передачи в реальном времени каждая запись обрабатывается сразу после появления. Это может привести к системам с очень низкой задержкой, готовым мгновенно использовать входящие данные (например, обнаружение мошеннических транзакций в финансовых системах).
- В системах микропакетной обработки вместо этого данные обрабатываются не по одному, а блоками и затем возвращаются после определенных временных интервалов или после достижения максимального размера хранилища. Этот тип подхода уделяет больше внимания пропускной способности, чем низкой задержке. Наконец, системы микропакетной обработки могут быть особенно полезны, если нужно выполнить сложные операции, такие как агрегаты (например, min, max, mean), объединения и т. д., непосредственно перед выводом результатов в хранилище данных. Микропакетная обработка можно рассматривать как очень хороший компромисс между чистой потоковой передачей и пакетной обработкой при выполнении, например, задач почасовой отчетности (например, средняя температура погоды и т. д.).