Введение в алгоритмы кластеризации

Основы алгоритмов кластеризации

Подробное руководство по 10 алгоритмам кластеризации, обычно используемым для иерархической, частной и плотностной кластеризации

Фото от Rod Long на Unsplash

Введение

Алгоритмы кластеризации играют важную роль в анализе данных. Эти инструменты для изучения данных без учителя обеспечивают системы для обнаружения знаний, категоризируя точки данных в отдельные группы на основе общих характеристик. Это позволяет выявить отношения и тенденции, которые могут быть трудно заметить в исходных данных. Они способствуют более обоснованному принятию решений, систематически добавляя больше понимания в сложные и запутанные наборы данных.

В этой статье мы рассмотрим основы трех типов алгоритмов кластеризации: иерархической, частной и плотностной кластеризации. Мы начнем с определения каждой из этих категорий. Затем мы рассмотрим 10 разных алгоритмов кластеризации, предоставляя определения, ссылки на оригинальные или интересные научные статьи, преимущества алгоритмов и фрагменты кода на python для каждого из них.

Содержание

Алгоритмы иерархической кластеризации

Алгоритмы частной кластеризации

Алгоритмы плотностной кластеризации

Алгоритмы иерархической кластеризации

Определение: Иерархическая кластеризация – это метод анализа кластеров, который создает иерархию кластеров. Он может быть визуализирован в виде деревянной структуры (дендрограммы), где листья представляют отдельные точки данных, а корень представляет собой отдельный кластер, содержащий все точки данных.

Области применения:

  • Проблемы таксономии.
  • Когда вертикальные отношения в данных являются важными.

Преимущества:

  • Предоставляет иерархическую структуру кластеров.