Джей Мишра, главный операционный директор Astera Software – серия интервью

Interview series with Jay Mishra, Chief Operating Officer of Astera Software

Jay Mishra является исполнительным директором (COO) в Astera Software, быстрорастущем поставщике готовых к использованию предприятий решений для обработки данных. Они помогают бизнес-пользователям сократить разрыв между данными и пониманием с помощью набора простых в использовании, но высокопроизводительных решений для извлечения данных, обеспечения качества данных, интеграции данных, хранения данных и электронного обмена данными, которые используются как средними, так и крупными компаниями Fortune 500 в различных отраслях.

Что изначально привлекло вас к компьютерным наукам?

Я имею математическое образование. Фактически, у меня есть степень бакалавра по математике и информатике. С самого начала меня увлекала математика, и это было продолжением логики и математики перейти к компьютерным наукам. Так я получил свое бакалаврское образование. А затем я обнаружил, что некоторые области компьютерных наук очень привлекательны, такие как работа алгоритмов, продвинутые алгоритмы. Я хотел специализироваться в этой области, и так я получил степень магистра по компьютерным наукам со специализацией в алгоритмах. С тех пор это было очень тесное отношение, и я по-прежнему следую за всем, что происходит в этой области.

В настоящее время вы являетесь COO Astera, можете ли вы рассказать нам, какие задачи выполняете каждый день?

Мой официальный титул – COO. Мы находимся в режиме роста, но мы уже долгое время строим наши продукты, и я занимался всеми различными областями компании, включая создание продукта, фактическую разработку продукта, а затем убедиться, что функциональность соответствует требованиям клиентов, тесно сотрудничать с клиентами, а также работать с продажами и маркетингом. Это некоторое расширение.

У меня все руки практически во всех областях с самого начала, и на данный момент это также включает дополнительные обязанности, такие как обеспечение достижения компанией своих целей по доходам и добавление правильных функций и продуктов для расширения нашего рынка. Это дополнительные обязанности, помимо основной обязанности создания и продвижения продукта.

Для читателей, которые не знакомы с этим термином, что такое хранение данных (data warehousing)?

Хранение данных – это архитектурный шаблон, используемый для объединения всех ваших предприятий данных, чтобы у вас было одно место, из которого вы можете получить любой вид аналитики, отчетов или панелей, которые будут представлять истинную картину состояния вашего бизнеса и прогнозирования его будущего состояния. Для этого вы объединяете данные определенным образом, и эта архитектура называется хранилищем данных.

Собственно термин взят из реального мира складов, где вы храните свою продукцию и организуете ее на полках для хранения данных, но когда дело доходит до мира данных, вы объединяете данные из различных источников. Вы объединяете данные из производственных данных, с вашего веб-сайта, от ваших клиентов, от отдела продаж и маркетинга, от финансового отдела, от отдела кадров. Вы объединяете все данные в одном месте, и это и называется хранилищем данных, которое разработано определенным образом, чтобы отчеты, особенно на основе временных интервалов, были легкими. В этом и заключается основная цель хранилища данных.

Какие из основных тенденций в хранении данных сегодня?

Хранение данных достаточно сильно эволюционировало за последние 20-25 лет. Около 10 лет назад началось автоматизированное хранение данных с использованием программных продуктов для создания моделей данных, построения хранилищ данных и их заполнения, и это ускорилось в последнее время, примерно за последние два-три года, и фокус сейчас на автоматизации. Мы уже знаем шаблоны – шаблоны существуют уже очень давно, и они повторяются. Есть много повторяющихся задач, и цель автоматизации – помочь пользователям избавиться от повторений. Они не должны тратить время на выполнение одинаковых задач снова и снова, на которые они тратят много времени, и поскольку шаблон уже определен, вы можете использовать инструменты автоматизации для решения этой задачи, и это сокращает количество времени и ресурсов, затрачиваемых на создание и поддержание хранилища данных. Автоматизация была основной тенденцией в последние несколько лет, и это включает все этапы от проектирования до создания хранилища данных, загрузки и поддержки, все это можно автоматизировать.

Наш продукт является одним из тех, который способен автоматизировать весь процесс, включая ETL-пайплайны, моделирование данных и загрузку данных в ваши звездные схемы или стены данных автоматически, а также поддержку с использованием CDC. Это была одна из ключевых тенденций, и одна из недавних – добавление искусственного интеллекта для использования ИИ, в частности генеративного ИИ, чтобы сделать автоматизацию еще лучше. Вы можете настроить свои артефакты хранения данных, ваши пайплайны и некоторые точки, где пользователь должен принять решение о выборе пути, которым следовать, и о том, какой путь не выбирать. Эти точки принятия решений могут быть решены с помощью искусственного интеллекта, и мы видим много взаимодействия между искусственным интеллектом и хранением данных в последнее время, примерно за последний год.

Какие четыре основных принципа должны учитывать компании при разработке своего хранилища данных?

  • Какие данные вам нужны?
  • Архитектурные шаблоны
  • Наборы инструментов
  • Команда

Почему компаниям нужен современный стек данных?

Это зависит от того, как мы определяем современный стек и это меняется с каждым годом, месяцем и даже днями. Я бы сказал, что современные наборы инструментов, разработанные с учетом требований нового времени данных, которые мы получаем, изменились за последние несколько лет, и, конечно, изменяется и объем. У нас есть большие данные, а также данные, которые производятся вашими интернет-магазинами, вашей производственной базой данных и даже данными, которые передаются в различные области вашего бизнеса, их природа меняется. Раньше это были в основном структурированные данные, теперь в игру вступает много неструктурированных данных, поэтому все меняется, и скорость поступления данных меняется.

Как быстро данные генерируются, как быстро данные становятся доступными для использования, и так как природа данных меняется, нам нужно продолжать следить за современными требованиями и инструментарием, который может справиться с этими изменениями.

Новый стек данных или современный стек данных разработан для обработки всех вариаций структуры и скорости данных, и он способен учитывать новые архитектурные шаблоны, которые мы видели за последние несколько лет, и он, в основном, решает общий прогресс, который происходит в мире данных.

Если вы хотите максимально эффективно использовать свои данные, вам нужно обновить свой стек данных, и это единственный способ справиться с новыми вызовами данных.

Во-вторых, мы видели, что иногда создание решения – это рабочий способ его сломать, но сама природа данных состоит в том, что они постоянно меняются, вы должны следить за этими изменениями, и вам нужно реагировать на них, а существующие решения могут не позволять этого делать, вам нужно продолжать следить за новшествами и добавлять новые возможности.

Какие текущие проблемы управления данными существуют в индустрии?

  • Скорость
  • Различные форматы данных
  • Публикация данных

Как Astera интегрировала искусственный интеллект в рабочий процесс клиента?

  • Использование Gen AI для улучшения удобства использования
  • Интеграция ИИ в RM и другие модули
  • ИИ-функционал как набор инструментов

Какие лучшие практики использования моделей ИИ и машинного обучения в управлении данными для крупных компаний?

Эта область больших языковых моделей все еще развивается, и развивается очень быстро, и мы были первыми пользователями этой области и пытались использовать генеративный ИИ для улучшения удобства использования нашего собственного продукта и удовлетворения определенных требований. Мы внутренне используем Open AI, а также Lama и другие большие языковые модели с низкоранговой адаптацией.

С помощью настройки этой LLMS мы можем развернуть небольшие модели размером от 8 до 13 миллиардов параметров и развернуть их локально. Это действительно хорошо работает для нас, и мы рекомендуем вам, вместо того, чтобы просто получать или использовать одну модель вместо другой, попробуйте разные базовые модели и разные конфигурации и посмотрите, какая из них подходит для вас.

Мы создали эту конфигурацию, в которой вы можете выбрать из большого списка вариантов. Практически то, что доступно разработчику или ученому-исследователю данных, работающему с библиотеками с открытым исходным кодом и проходящему свой собственный научный путь. Мы объединили все это в нашем продукте.

Теперь вы можете экспериментировать с разными большими языковыми моделями и разными конфигурациями, тестировать и развертывать их, и смотреть, какой из них имеет смысл для вашего сценария. Из нашего опыта мы определенно видим, что рекомендуется иметь модель с настройкой и развертывать ее локально, посвятив ее своему сценарию, вместо использования API. Это для нас не очень хорошо работало, потому что API имеют задержки, а для продуктов, ориентированных на данные, это неприемлемо. Особенно с большими объемами данных это становится проблемой.

Мы рекомендуем экспериментировать со всеми возможными вариантами в библиотеках с открытым исходным кодом и стараться держать настроенную модель локализованной и настроенной для вашего сценария.

Почему Astera является превосходным решением по сравнению с конкурирующими платформами?

  • Удобство использования (без кода и перетаскивания пользовательского интерфейса и улучшенное использование с помощью ИИ)
  • Автоматизация
  • Единая и комплексная платформа управления данными

Спасибо за отличное интервью, читатели, желающие узнать больше, могут посетить сайт Astera Software.