Google AI представляет новый алгоритм кластеризации, который эффективно объединяет масштабируемые преимущества моделей внедрения с качеством моделей межвнимания

Google AI представляет новый алгоритм кластеризации, объединяющий масштабируемые преимущества моделей внедрения с высоким качеством моделей межвнимания

Кластеризация служит фундаментальной и широко распространенной задачей в областях data mining и unsupervised machine learning. Её целью является объединение похожих элементов в отдельные группы. Существуют два типа кластеризации: метрическая кластеризация и графовая кластеризация. Метрическая кластеризация включает использование указанного метрического пространства, которое устанавливает расстояния между различными точками данных. Эти расстояния служат основой для группировки точек данных, при этом процесс кластеризации зависит от разделения между ними. С другой стороны, графовая кластеризация использует заданный граф, который связывает похожие точки данных через ребра. Затем процесс кластеризации организует эти точки данных в группы на основе существующих связей между ними.

Одна из стратегий кластеризации включает в себя использование моделей вроде BERT или RoBERTa для формулирования задачи метрической кластеризации. В альтернативном подходе используются модели смешанного внимания (Cross-Attention, CA), такие как PaLM или GPT, для установления задачи графовой кластеризации. В то время как модели CA могут обеспечивать очень точные показатели сходства, построение входного графа может потребовать нереалистичного квадратичного количества вычислений для каждого ребра. В отличие от этого, расстояния между эмбеддингами, полученными с использованием моделей эмбеддинга, могут эффективно определить метрическое пространство.

Исследователи представили алгоритм кластеризации под названием KwikBucks: Correlation Clustering with Cheap-Weak and Expensive-Strong Signals. Этот инновационный алгоритм эффективно объединяет преимущества масштабируемости моделей эмбеддинга с качеством, которое предоставляют модели CA. Алгоритм для графовой кластеризации обладает доступом к запросам как к CA-модели, так и к модели эмбеддинга. Однако есть ограничение на количество запросов, отправляемых CA-модели. Этот алгоритм использует CA-модель для обработки запросов о ребрах и использует неограниченный доступ к показателям сходства из модели эмбеддинга.

Процесс включает в себя первоначальную идентификацию набора документов, известных как центры, которые не имеют общих ребер сходства, а затем создание кластеров на основе этих центров. Для балансировки качественной информации, получаемой от моделей смешанного внимания (CA), с эффективной работой моделей эмбеддинга, представлен метод смешанного оракула сходства (combo similarity oracle).

В этой методологии модель эмбеддинга используется для направления запросов к CA-модели. При предъявлении набора центровых документов и целевого документа, механизм комбинированного оракула сходства создает вывод, идентифицируя центр из набора, похожий на целевой документ, если такое сходство существует. Механизм комбинированного оракула сходства ценен тем, что позволяет экономить бюджет, ограничивая количество запросов к CA-модели при выборе центров и формировании кластеров. Это достигается путем первоначальной ранжировки центров на основе сходства их эмбеддингов с целевым документом, а затем запроса CA-модели для идентифицированной пары.

После первоначальной кластеризации также производится последующий этап пост-обработки, в ходе которого кластеры объединяются. Это объединение происходит при идентификации сильной связи между двумя кластерами, в частности, когда количество соединяющих ребер превышает количество отсутствующих ребер между двумя кластерами.

Исследователи испытали алгоритм на нескольких наборах данных с разными характеристиками. В ходе тестирования производительности алгоритм сравнивали с двумя лучшими базовыми алгоритмами, используя разные модели на основе эмбеддингов и смешанного внимания.

Предложенный корреляционный подход к кластеризации с экономией запросов может использовать только модель смешанного внимания (CA) и функции в рамках ограниченного бюджета кластеризации. В этом случае для достижения этой цели применяется спектральная кластеризация с использованием графа ближайших соседей (kNN). Создание этого графа осуществляется с помощью запросов к CA-модели для k-ближайших соседей каждой вершины на основе сходства, полученного с использованием модели эмбеддинга.

Оценка выполняется путем расчета показателей точности и полноты. Точность оценивает процент похожих пар среди всех пар, сгруппированных в одном кластере, в то время как полнота измеряет процент пар сходных пар среди всех похожих пар.