Как платформа VAST Data устраняет преграды для инноваций в области искусственного интеллекта

Как VAST Data помогает развивать искусственный интеллект

Недавно у меня появилась возможность пообщаться с Рененом Халлаком, основателем и генеральным директором компании VAST Data, о их новой объединенной платформе для искусственного интеллекта. В 2019 году VAST произвели фурор, выпустив VAST DataStore, высокопроизводительную и масштабируемую систему хранения на базе флэш-памяти. Однако, как я узнал от Ренена, хранение данных было лишь открытием в грандиозном видении VAST о том, чтобы стать платформой для данных искусственного интеллекта.

С ростом интереса и инвестиций в области искусственного интеллекта требования к инфраструктуре становятся больше, чем когда-либо. VAST стремится устранить распространенные компромиссы, связанные с производительностью, масштабируемостью, географией и простотой использования, чтобы разблокировать потенциал искусственного интеллекта. 1 августа VAST представили свою расширенную платформу для данных, включающую новую базу данных и возможности вычислений, а также флагманский продукт VAST DataStore.

Путешествие данных VAST началось с революционной архитектуры

Путешествие VAST началось в 2016 году с создания инновационной архитектуры, названной Disaggregated Shared Everything (DASE). Как сказал Ренен, цель VAST с самого начала заключалась в предоставлении алгоритмам искусственного интеллекта неограниченного доступа к большему количеству данных быстрее.

DASE полностью переосмысливает дизайн центра обработки данных, разделяя хранение и вычисления на независимые ресурсные пулы, которые могут масштабироваться параллельно. Это устраняет узкие места, такие как согласованность кэша и управление метаданными, которые ограничивают масштабируемость архитектур с распределенным масштабированием. VAST также разработали новые общие структуры данных и протоколы, обеспечивающие согласованный и эффективный доступ к данным в разгруппированной среде.

В результате DASE обеспечивает ранее недостижимую производительность при масштабировании. Она позволяет задачам искусственного интеллекта быстро анализировать огромные объемы данных способами, недоступными на традиционной инфраструктуре. Путем объединения большего количества данных, более быстрого доступа и прямого подключения к аналоговым и цифровым источникам данных, VAST считает, что DASE откроет новые возможности для алгоритмических прорывов.

VAST DataStore: высокоскоростной репозиторий неструктурированных данных

Основанный на DASE, флагманский продукт VAST – это VAST DataStore, выпущенный в 2019 году. VAST DataStore объединяет возможности SAN и NAS в единую систему на базе флэш-памяти, специализированную для неструктурированных данных.

Используя параллелизм DASE, VAST DataStore предлагает эффективное использование файлового, объектного и HPC-хранилища, используя только флэш-память. Отдельного слоя производительности на основе медленной дисковой памяти не требуется. Все данные имеют быстрый доступ с произвольным доступом.

VAST DataStore эффективно обрабатывает неструктурированные данные в эксабайтных масштабах с использованием стандартных интерфейсов, таких как NFS, SMB и S3. За кулисами DASE хранит данные в виде маленьких элементов, к которым вычислительные ресурсы получают доступ параллельно. Функции, такие как дедупликация, сжатие, снимки и QoS, реализуются в режиме реального времени с помощью постоянного буфера записи DASE.

Новая VAST DataBase и VAST DataEngine расширяют возможности

Основываясь на успехе VAST DataStore, VAST Data недавно анонсировали свою расширенную платформу, представив VAST DataBase и VAST DataEngine. Вместе с VAST DataStore они образуют объединенную среду для данных, ориентированную на искусственный интеллект, охватывающую захват, хранение, обработку и запросы данных.

VAST DataBase использует DASE для обеспечения гипермасштабируемой базы данных для транзакционных и аналитических рабочих нагрузок. Используя инновационный колоночный формат, VAST DataBase уменьшает размеры данных для молниеносной производительности запросов в масштабе. DASE позволяет выполнение одновременных вставок и запросов OLTP без промежуточных компромиссов. База данных также служит каталогом метаданных для неструктурированных данных в VAST DataStore.

VAST DataEngine позволяет обрабатывать рабочие нагрузки с данными непосредственно в глобальной среде данных. Он может оптимизировать расположение задач на основе факторов, таких как локальность данных и стоимость. Разработчики могут создавать рекурсивные вычислительные циклы, срабатывающие при событиях с данными в любой точке среды. Эта непрерывная обработка значительно повышает производительность рабочих процессов искусственного интеллекта, связанных с данными.

VAST DataSpace: безграничная среда данных, обеспечивающая силу инновации искусственного интеллекта

Все это объединяет VAST DataSpace, глобальное пространство имен, объединяющее отдельные сегменты данных в локациях on-prem, в облаке и на краю сети. Эта новаторская доступность данных позволяет приложениям использовать данные без централизованной собственности. Вместо перемещения данных к вычислениям, вычисления приходят к данным для достижения оптимальной эффективности.

С использованием объединенной среды данных, снимающей традиционные ограничения, возникают новые увлекательные сценарии применения искусственного интеллекта. Заказчик VAST, студия Pixar, революционизировала производство анимационных фильмов благодаря использованию глобальных общих наборов данных. Онлайн-гигант в сфере путешествий Agoda использует VAST для поддержки всего процесса обработки больших данных и машинного обучения.

Избавившись от компромиссов в доступе к данным, VAST Data является пионером следующего этапа развития инфраструктуры искусственного интеллекта. Препятствия, связанные с производительностью, масштабом, географией и простотой использования, исчезают, позволяя предприятиям сосредоточиться на инновациях, а не на инфраструктуре. VAST Data открывает новую эру, где границы инноваций в области искусственного интеллекта определяются идеями, а не ограничениями технологий.

Возможности с объединенной платформой VAST Data

Возможности, предоставляемые объединенной платформой VAST Data, разнообразны и охватывают такие области, как аналитика в реальном времени, обучение моделей, приложения баз данных и многое другое. Давайте рассмотрим некоторые примеры использования:

Аналитика в реальном времени

Для аналитики в реальном времени хранилище данных VAST DataStore обеспечивает быстрый доступ к огромным объемам неструктурированных данных. База данных VAST DataBase облегчает аналитические запросы на основе огромного количества структурированных данных. Объединение этих возможностей в VAST DataSpace позволяет осуществлять быстрый анализ, коррелируя неструктурированные и структурированные потоки данных.

Непрерывное обучение моделей

Система VAST DataEngine обеспечивает непрерывные рабочие процессы обучения моделей. При поступлении новых неструктурированных данных в хранилище данных VAST DataStore запускаются задания обучения моделей в VAST DataSpace с использованием последних данных. Результаты записываются для немедленного доступа к выводу.

Расширение в облако

Для масштабирования аналитики или обучения рабочих нагрузок VAST DataSpace может расширяться в публичное облако, при этом сохраняя объединенное глобальное пространство имен. Это позволяет использовать ресурсы облака для дополнительной мощности без миграции данных.

Гипермасштабная база данных

Поддержка одновременных OLTP и OLAP в масштабе экстремального масштаба в базе данных VAST DataBase обеспечивает идеальную основу для приложений с крупномасштабными транзакциями, требующих аналитических исследований.

Озера данных

Для потребностей в озерах данных хранилище данных VAST DataStore предлагает централизованный репозиторий для всех корпоративных данных. База данных VAST DataBase предоставляет каталог метаданных активов данных. VAST DataSpace объединяет все в единое целое.

В заключение, объединенная природа платформы VAST Data позволяет использовать ее в различных случаях с высокой интенсивностью данных. Удаление ограничений инфраструктуры открывает бесконечные возможности.

Путь вперед для VAST Data

VAST не показывает признаков замедления. Компания недавно привлекла $210 миллионов при оценке в $3.7 миллиарда. VAST активно расширяется, включая запуск нового исследовательско-разработческого центра, направленного на совершенствование технологий DASE.

Некоторые из областей, в которых VAST вносит инновации, включают:

  • Делание DASE доступным как составляемую ткань служб данных
  • Расширение возможностей глобальной файловой системы
  • Новые техники сжатия данных, такие как сжатие DNA
  • Оптимизация для рабочих нагрузок AI/ML, GPGPU
  • Уровни хранения зон для доступа к данным с низкой задержкой
  • Гибридное и мульти-облачное управление данными

Кроме того, Ренен намекнул на расширение рыночного фокуса VAST за пределы искусственного интеллекта и аналитики на развивающиеся области, такие как ML Ops, метавселенная и Web 3.0.

Это захватывающее время для наблюдения за тем, как пионеры, такие как VAST Data, изменяют возможности обработки данных. Поскольку инновации в области искусственного интеллекта и приложений нового поколения создают огромные потребности в данных, компании, удовлетворяющие эти потребности в инфраструктуре, будут стимулировать самые передовые достижения.