Читать книгу Нейросети. Основы онлайн
DBSCAN (Density-Based Spatial Clustering of Applications with Noise)
DBSCAN – алгоритм кластеризации, основанный на плотности данных. Он идентифицирует плотные регионы данных и выделяет их в кластеры, эффективно обрабатывая шумовые данные и выявляя кластеры произвольной формы. Основные параметры DBSCAN включают (epsilon) (eps), определяющий радиус соседства точки, и ( minPts ), указывающий минимальное количество точек в радиусе (epsilon) для формирования кластера.
Основные шаги алгоритма DBSCAN:
1. Плотностная связь: Для каждой точки определяется плотность, основанная на числе соседних точек в радиусе ( epsilon ).
2. Формирование кластеров: Начинается с произвольной точки. Если плотность точки выше порогового значения (minPts), она считается начальной точкой кластера, и все плотностно-связанные точки включаются в этот кластер.
3. Обработка шума: Точки, которые не могут быть включены ни в один кластер (имеющие менее ( minPts ) соседей в радиусе epsilon , считаются шумом и не относятся ни к одному кластеру.
DBSCAN особенно эффективен для выявления кластеров произвольной формы и работы с шумом. В отличие от K-means, он не требует заранее задавать число кластеров. Однако выбор параметров (epsilon) и (minPts) может быть нетривиальной задачей и требовать тщательной настройки для конкретного набора данных.
2. Снижение размерности
Снижение размерности – это метод уменьшения числа признаков в данных, что упрощает модель и улучшает её интерпретируемость. Этот метод полезен для визуализации данных, уменьшения вычислительной сложности и устранения шума.
PCA (Principal Component Analysis)
Метод главных компонент (PCA) – это линейный метод снижения размерности, который преобразует данные в новое пространство меньшей размерности, сохраняя при этом максимальное возможное количество вариаций данных. Основная идея PCA заключается в нахождении новых осей (главных компонент), которые являются линейными комбинациями исходных признаков и упорядочены таким образом, что первая главная компонента объясняет наибольшую долю дисперсии в данных, вторая – вторую по величине, и так далее.