Векторная база данных что это и почему всё так шумно?

Что такое векторная база данных и почему она так шумно?

Обзор множественных компромиссов, которые следует учитывать при выборе решения для векторной базы данных

Фото от İsmail Enes Ayhan на Unsplash

Векторные базы данных в последние несколько месяцев получили много внимания, и уже более 10 компаний предлагают некоторый тип архитектуры векторных баз данных. Почему существует так много типов? Что такое векторная база данных? Следует ли мне перенести мою базу данных на векторную базу данных? Чтобы ответить на эти вопросы, давайте сначала попробуем определить, что такое данные.

Исторический обзор баз данных

Данные состоят из информации, которая хранится цифровым образом на компьютере и может быть организована или полу-структурирована. Данные обычно хранятся в системе, созданной для легкого доступа и управления – базе данных. Векторы состоят из определенного типа данных, обычно сжатого представления, содержащего некое семантическое представление его базовой идентичности. Основная идея использования векторов заключается в том, что их основная идентичность может быть чем-то от текстового документа до аудиофайла. Векторная база данных – это система баз данных, разработанная для работы с векторами в масштабе. Идея заключается в возможности извлечения векторов на основе семантики запроса, поскольку семантическое понимание обеспечивает более точные переводы запросов и результаты, чем запросы на основе ключевых слов.

Думая о базах данных, SQL-базы данных – один из первых типов, приходящих на ум. Это связано с тем, что они появились в 1970-х годах и являются одним из самых зрелых типов баз данных. Они настолько широко используются, что любой, кто работал в области связанной с данными, в какой-то момент имел с ними дело. Их успех обусловлен тем, что они рассматривают данные как структурированные, а в реальном мире много данных создается в транзакционной форме. Использование всех этих транзакций последовательно для хранения данных приводит к структурированной таблице. Реляционные базы данных становятся интересными, когда различные таблицы связываются вместе для отражения сложности мира. Несмотря на их неоспоримый успех, основным недостатком реляционных баз данных является их неизменяемость. Данные реального мира могут поступать из различных источников, и с появлением больших данных сбор данных происходит с высокой скоростью. Возможность собирать данные из этих разнообразных источников требует сохранения данных, которые иногда могут быть…