Использование SuperDuperDB для создания простой системы дополнительного удаления.

Как использовать SuperDuperDB для создания удобной системы дополнительного удаления

Использование семантического поиска для идентификации похожих учетных записей клиентов

Изображение от автора

Введение

Я провел значительное количество лет в области идентификации клиентов, пытаясь определить дублирующиеся учетные записи клиентов и объединять их в группы.

На мой опыт, в B2C-секторе существуют два типа новых клиентов:

  1. Настоящий новый клиент: Клиент без существующей учетной записи в базе данных компании.

2. Ложный новый клиент: Клиент, у которого имеется одна или несколько существующих учетных записей в базе данных компании.

Одной из распространенных проблем, с которыми сталкиваются крупные B2C-компании, является дублирование учетных записей клиентов, то есть клиенты, открывающие несколько учетных записей в компании. В зависимости от стимулов для новых клиентов, предоставляемых компанией, клиенты с несколькими учетными записями могут использовать стимул несколько раз. Если это не отслеживается, это может привести к значительным финансовым потерям со временем, поскольку растет число ложных новых клиентов.

В последнее время я задумывался о том, как LLM-технологии могли бы помочь идентифицировать и ассоциировать клиентов в реальном времени, то есть определять, имеет ли клиент право на стимул для новых клиентов сразу после его регистрации.

Это привело к разработке решения, которое можно свести к двум шагам:

  • Использование LLM для поиска семантической схожести между данными клиентов в базе данных сразу после регистрации клиента. Однако только семантический поиск не будет достаточным, так как он может выдавать ложноположительные схожести, которые могут нанести ущерб репутации бизнеса, особенно когда настоящим новым клиентам неправомерно назначаются санкции.
  • Создание простого слоя логики повторной ранжировки в качестве этапа последующей обработки или второго уровня проверки поспособствует увеличению количества верных положительных результатов.

Как всегда, мои мысли обычно приводят меня к поиску инструментов, которые помогут быстро создать простой минимально-достаточный рабочий прототип. И на этот раз не было исключением.

Новая платформа, с которой я недавно поигрался, называется SuperDuperDB

SuperDuperDB – это открытая платформа, которая пытается устранить сложные MLOps-каналы, специализированные векторы и…