Введение в алгоритмы кластеризации
Основы алгоритмов кластеризации
Подробное руководство по 10 алгоритмам кластеризации, обычно используемым для иерархической, частной и плотностной кластеризации
Введение
Алгоритмы кластеризации играют важную роль в анализе данных. Эти инструменты для изучения данных без учителя обеспечивают системы для обнаружения знаний, категоризируя точки данных в отдельные группы на основе общих характеристик. Это позволяет выявить отношения и тенденции, которые могут быть трудно заметить в исходных данных. Они способствуют более обоснованному принятию решений, систематически добавляя больше понимания в сложные и запутанные наборы данных.
В этой статье мы рассмотрим основы трех типов алгоритмов кластеризации: иерархической, частной и плотностной кластеризации. Мы начнем с определения каждой из этих категорий. Затем мы рассмотрим 10 разных алгоритмов кластеризации, предоставляя определения, ссылки на оригинальные или интересные научные статьи, преимущества алгоритмов и фрагменты кода на python для каждого из них.
Содержание
Алгоритмы иерархической кластеризации
Алгоритмы частной кластеризации
- Исследование времени событий с помощью анализа выживаемости
- Книги по Data Engineering
- Философия и наука о данных – глубокое мышление о данных
Алгоритмы плотностной кластеризации
Алгоритмы иерархической кластеризации
Определение: Иерархическая кластеризация – это метод анализа кластеров, который создает иерархию кластеров. Он может быть визуализирован в виде деревянной структуры (дендрограммы), где листья представляют отдельные точки данных, а корень представляет собой отдельный кластер, содержащий все точки данных.
Области применения:
- Проблемы таксономии.
- Когда вертикальные отношения в данных являются важными.
Преимущества:
- Предоставляет иерархическую структуру кластеров.