Воронка неструктурированных данных

Визуализация хаоса воронка неструктурированных данных

<фигура>На сколько глубоко вы спускаетесь, определяет стоимость. Фотография Рикардо Гомес Анхель на Unsplash

Почему воронка является центром войны между самыми мощными игроками данных

Введение

Неструктурированные данные имеют различные формы. Они обычно содержат много текста, но могут также содержать даты, числа и словари. Инженеры данных часто сталкиваются с неструктурированными данными в виде глубоко-вложенных json. Однако термин “неструктурированные” данные на самом деле относится ко всему, что не является таблицей; фактически, более 80% данных мира являются неструктурированными.

Хотя неструктурированные данные могут показаться незначительными для нас, занимающихся данными, они вызывают огромный резонанс на макроуровне. На самом деле, модели GPT все обучаются на неструктурированных данных. Об этом правильно заметил Томаш Тунгуз в недавней статье о финансовом отчете Snowflake:

<фигура>Взято из “Snow Angels” от Томаша Тунгуза

Может показаться странным рассматривать неструктурированные данные в финансовом и макроэкономическом контексте. Моя первая работа была в инвестиционном банке, поэтому я ностальгирую, когда читаю такие вещи. “Неструктурированные данные – двигатель роста” может иметь для меня смысл – это звучит как очень большой маркетинговый форс-мажор!

Но прошло уже некоторое время, как я выстраивал блоки в PowerPoint. Концептуально неструктурированные данные теперь являются глубоко вложенным json, ожидающим обработки. Однако из финансового отчета ясно, что неструктурированные данные теперь это не только JSON (а это когда-либо было?), но и текст, документы, видео и т.д.

Стало понятно, что эти данные являются основой для некоторых из наиболее скоро станут критическими сценариями использования, и то, где они обрабатываются, имеет первостепенное значение для двух гигантов в мире данных: Databricks и Snowflake. Давайте разберемся, почему.

Зачем нужны неструктурированные данные?

Модели GPT питаются данными. В частности, они питаются неструктурированными данными. Это вещи типа текстовых документов, HTML-файлов и фрагментов кода. Поскольку компании все больше стремятся внедрить LLMs в промышленность, возрастает ценность обработки этих данных, так как растет спрос на них. Таким образом, их ценность для таких поставщиков, как Snowflake и Databricks, возрастает.