Поиск похожести для вложения революционный подход в анализе данных

Поиск сходств для инновационного подхода к анализу данных

С начала взлета OpenAI к лидерству в сфере инноваций, ряд ключевых игроков в области технологий, включая AWS, Google, IBM, Microsoft, Databricks и Oracle, только чтобы назвать несколько, интегрировали свой собственный подход к генеративному искусственному интеллекту в свои программы исследований и разработки.

Так Oracle объявила на ежегодной конференции CloudWorld, что компания добавляет возможности генеративного ИИ в свою облачную службу анализа данных.

«Генеративный ИИ. Является ли это самой важной технологией когда-либо? Вероятно» – Ларри Эллисон, технический директор и соучредитель Oracle.

Oracle добавила функциональность генеративного ИИ в свою облачную службу анализа данных. Цель состоит в том, чтобы взять на вход документы в различных форматах, хранить их и извлекать на основе их смысла. Для достижения этого, Oracle использует метод, который включает интеграцию документов в виде вложений.

«Поиск векторной близости использует машинное обучение для преобразования близости текста, изображений или аудио в векторное пространство, делая поиск быстрее, точнее и масштабируемее». – Мартин Хеллер, доктор физики, Брауновский университет

Вложение

В контексте анализа текста, “поиск близости для вложений” используется для поиска текстовых документов или отрывков, смысл которых наиболее схож с заданным запросом или входным текстом.

Вложение включает представление слов в контексте текстового анализа в виде векторов. В области NLP и LLM эти технологии позволяют системам более эффективно использовать (можно сказать, “понимать”) текстовое содержимое.

Векторная база данных не отслеживает слова, а вместо этого работает с числовыми векторами, которые кодируют смысл текста. Точно так же пользовательские запросы также преобразуются в числовые векторы. Это позволяет базе данных выполнять поиск и находить соответствующие статьи или отрывки, вне зависимости от наличия тех же самых терминов.

В области обработки естественного языка процесс преобразования текста в числовые векторы и проведение поиска сходства играет ключевую роль. Вот обзор основных концепций и техник векторного представления и извлечения соответствующих документов.

  1. Векторное представление: Текстовые документы должны быть преобразованы в числовые векторы с использованием техник, таких как вложение слов или более продвинутые методы, такие как вложение на основе трансформатора. Каждое слово или документ представлено вектором в многомерном пространстве. Своего рода вложение слов является формой представления слов, которая стремится связать понимание языка человеком и понимание машины.
  2. Вектор запроса: Входной текст запроса также преобразуется в вектор с использованием той же методики интеграции. Этот вектор запроса представляет собой смысл или содержание запроса. Векторные базы данных созданы для быстрого поиска сходства в огромных наборах данных. Они превосходно справляются с обработкой векторных данных, используя уникальные методики индексирования и запроса данных, что значительно сокращает объем поиска и ускоряет процесс извлечения информации. Векторные базы данных эффективно управляют сложными структурами данных.
  3. Поиск сходства: Затем система ищет другие текстовые документы, представленные в виде векторов, которые наиболее похожи на вектор запроса. В контексте больших языковых моделей (LLM) и генеративного ИИ, роль поиска сходства векторов заключается в идентификации похожих элементов или точек данных в больших и сложных наборах данных, что особенно важно для работы с высокоразмерными пространствами. В то время как классические методы поиска могут не справиться, преобразуя текст и данные в числовые векторы и используя специализированные алгоритмы, поиск сходства векторов упрощает процесс поиска связанной информации.
  4. Извлечение соответствующих документов: Документы или отрывки, чьи векторы наиболее близки к вектору запроса, считаются наиболее соответствующими. Они извлекаются в качестве результатов поиска. Этот подход позволяет системам анализа текста находить документы или отрывки, которые не содержат точно такие же слова, как запрос, но имеют схожий семантический смысл. Это мощный инструмент для извлечения информации и понимания естественного языка.

Почему это важно помимо аспекта производительности?

Стоит помнить, что использование технологий генеративного ИИ должно сопровождаться непрерывным контролем и обязательством ответственного использования и этического подхода. Эти технологии должны использоваться с осторожностью, чтобы избежать потенциальных проблем и ошибок.

Качество данных

Качество обучающих данных может существенно влиять на эффективность встраивания и поиска по сходству. Зашумленные или предвзятые данные могут привести к неточным результатам. Очень важно иметь возможность гарантировать качество информации перед ее распространением, особенно в областях, таких как здравоохранение, финансы или безопасность.

Конфиденциальность

При использовании LLM (языковой модели с длинной памятью) следует избегать разглашения чувствительной личной или корпоративной информации, так как это может нарушить конфиденциальность физических лиц или компаний. Это уже случалось с Samsung, когда сотрудники компании трижды раскрывали конфиденциальную информацию. Сначала один человек скопировал исходный код в ChatGPT в рамках запроса на поиск решения. Затем кто-то поделился деталями оптимизации кода. Наконец, другой человек преобразовал отчет о встрече для ChatGPT и создал презентацию.

Масштабируемость

Масштабирование этих техник для обработки крайне больших наборов данных и требуемых вычислительных ресурсов может представлять собой реальное ограничение, неважно, рассматриваемы ли стоимость или углеродный след.

Семантическое понимание

Хотя встраивание в определенной степени улавливает смысл, оно не всегда полностью передает контекст или тонкости человеческого языка.

Конфиденциальность и этика

Этические соображения, связанные с использованием встраивания и поиска по сходству в искусственном интеллекте, такие как проблемы конфиденциальности и потенциальные предубеждения в результатах поиска.

“Размер и цвет помогают отличить куриные яйца от коровьих яиц; коровьи яйца обычно больше, чем куриные.” – ChatGPT

Ограничение распространения некорректной информации (также известное как галлюцинации)

Искусственный интеллект может производить некорректную или вводящую в заблуждение информацию. Очень важно проверять достоверность информации перед ее распространением. Феномен галлюцинаций фактически относится ко всему диапазону неточностей в LLM. Это может включать фантастические ссылки или цитаты, уверенные рассуждения о странных темах, например, “коровьих яйцах”, полное вымышленных фактов или исторических фигур, неправильное смешение концепций или информации и так далее…

Я не могу рекомендовать безоговорочное принятие несопровождаемой информации, особенно когда она используется важных контекстах, таких как здравоохранение, финансы, безопасность или принятие решений в целом.

Хотя Ян Лекун считает, что эта проблема не может быть решена без полной переработки базовых моделей, смесь техник и методов может снизить влияние этих проблем и сделать их приемлемыми для многих случаев использования. Но это будет предметом отдельной статьи.

Заключение

Встраивание – это метод в текстовом анализе, который преобразует слова в числовые векторы, обеспечивая эффективный поиск похожих документов для заданного запроса. Этот метод играет важную роль в LLM и искусственном интеллекте, позволяя находить связанные данные в многомерных наборах данных, улучшая информационный поиск и понимание естественного языка.

Oracle применил этот инновационный подход для улучшения поиска документов в своем сервисе аналитики данных в облаке.

Теперь найти нужные данные проще, чем отличить куриное яйцо от коровьего 😉