Наблюдаемость данных Надежность в эпоху искусственного интеллекта

Гарантия надежности данных в эпоху искусственного интеллекта актуальность и проблематика

Когда мы впервые представили концепцию наблюдаемости за данными четыре года назад, она нашла отклик у организаций, которые обнаружили новую ценность…и новые проблемы благодаря современному стеку данных.

Теперь, спустя четыре года, мы видим, что организации справляются с огромным потенциалом…и огромными вызовами, которые возникают из-за генеративного искусственного интеллекта.

Ответ сегодня такой же, каким он был тогда: улучшите надежность продукта данных, получив полный контекст и просматривая все ваши системы сбора данных. Однако системы и процессы эволюционируют в новую эру искусственного интеллекта, и поэтому тоже должна эволюционировать наблюдаемость за данными.

Вероятно, лучший способ рассматривать это – рассматривать искусственный интеллект как еще один продукт данных, а наблюдаемость за данными как живую систему, которая контролирует все ваши продукты данных. Необходимость в надежности и прозрачности в этом очень сложном пространстве так же важна для построения доверия в ГИС, как и ранее для аналитики и машинного обучения.

В частности для GenAI это означает, что наблюдаемость за данными должна приоритезировать разрешение проблем, эффективность конвейера и потоковые/векторные структуры. Давайте ближе рассмотрим, что это означает.

Проехав за границами аномалий

Программисты уже давно умеют справляться с простоями приложений, благодаря таким решениям для наблюдаемости, как New Relic и Datadog (которые, кстати, только что продемонстрировали потрясающие результаты в своем квартале).

Команды по обработке данных, с другой стороны, сообщили, что время простоя данных почти удвоилось за год и что каждый час стоит все дороже.

Изображение с любезного разрешения Monte Carlo.

Продукты данных – аналитические, системы машинного обучения и искусственного интеллекта – должны стать таким же надежными, как и те приложения, чтобы действительно стать неотъемлемой частью ключевых бизнес-операций. Как это достичь?

Ну, когда вы рассматриваете исследование времени простоя данных более подробно, начинает вырисовываться тенденция: среднее время до разрешения проблемы (после обнаружения) увеличилось с 9 до 15 часов.

По нашему опыту, большинство команд по обработке данных (возможно, под влиянием обычной практики тестирования данных) начинают обсуждение с обнаружения. Хотя раннее обнаружение имеет критическое значение, команды сильно недооценивают важность оперативного расследования и разрешения проблемы. Представьте себе, как вы беспорядочно переключаетесь между десятками инструментов, пытаясь бесполезно выяснить, как возникла аномалия и имеет ли это значение. Обычно это приводит к утомленным командам, которые игнорируют предупреждения и страдают от простоев по данным.

Monte Carlo ускорил анализ основной причины этого события по обновлению данных путем корреляции с ошибкой модели dbt, которая возникла из-за запроса на объединение GitHub, в котором код модели был неправильно изменен вставкой точки с запятой на 113 строке. Изображение с любезного разрешения Monte Carlo.

Наблюдаемость за данными характеризуется возможностью ускорения анализа корневой причины данных, системы и кода, а также созданием активных SLA на здоровье данных по всему предприятию, области и уровню продуктов.

Потребность в скорости (и эффективности)

Инженеры по обработке данных будут создавать больше конвейеров быстрее (спасибо, Gen AI!), и технический долг будет накапливаться наряду с этим. Это означает ухудшение производительности запросов, DAG и моделей dbt.

Медленно работающие конвейеры данных обходятся дороже, менее надежны и обеспечивают плохой опыт потребителя данных. Это не подойдет для эпохи искусственного интеллекта, когда данные необходимы как можно скорее. Особенно когда экономика заставляет всех подходить к расходам осмотрительно.

Это означает, что конвейеры данных должны быть оптимизированы и контролироваться по производительности. Наблюдаемость за данными должна учитывать это.

Наблюдение за стеком данных GenAI

Это не удивит никого, кто работает в области обработки данных или машинного обучения в последние несколько лет, но ГИС проявляют себя лучше в областях, где данные являются хорошо определенными, структурированными и точными.

Не говоря уже о том, что есть немного корпоративных проблем, которые не требуют какого-то контекста предприятия. Это обычно собственные данные – будь то идентификаторы пользователей, история транзакций, время доставки или неструктурированные данные из внутренних документов, изображений и видео. Обычно они хранятся в хранилище данных. Я не могу сказать чат-боту Gen AI отменить мой заказ, если он не имеет представления о том, кто я, о моих предыдущих взаимодействиях или политике отмены компании.

Ох, ладно. Будь таким, Комната-GPT 3.5. Картинка от Монте-Карло.

Для решения этих задач организации обычно обращаются к подходам RAG или предварительному обучению / донастройке, оба из которых требуют умных и надежных конвейеров данных. В двух словах, RAG включает предоставление LLM дополнительного контекста через базу данных (часто векторную базу данных…), которая регулярно принимает данные из конвейера, тогда как донастройка или предварительная подготовка включает настройку того, как LLM выполняет конкретные или специализированные типы запросов, предоставляя ему обучающий корпус схожих данных. Наблюдаемость данных должна помогать командам по работе с данными достичь надежности и доверия в этом новом стеке.

В эпоху искусственного интеллекта инженерия данных важнее, чем когда-либо

Инженерия данных никогда не была медленно развивающейся областью. Если бы мы начали говорить с вами десять лет назад о кластерах Spark, вы бы вежливо кивнули головой и перешли дорогу.

Чтобы перефразировать греческого философа-инженера данных, единственная постоянная – это изменение. К этому мы добавим, что единственные постоянные требования к инженерии данных – это вечные запросы на больше. Больше данных, больше надежности и больше скорости (но по меньшей стоимости, пожалуйста и спасибо).

Gen AI не будет исключением, и мы видим наблюдаемость данных как важный мост к этому будущему, которое внезапно наступило.