Читать книгу Искусственный интеллект. Машинное обучение онлайн
X_scaled = scaler.fit_transform(X) # Масштабируем данные
# Иерархическая кластеризация
model = AgglomerativeClustering(n_clusters=3) # Задаем количество кластеров
clusters = model.fit_predict(X_scaled)
# Визуализация дендрограммы
plt.figure(figsize=(12, 8))
dendrogram(linkage(X_scaled, method='ward'))
plt.title('Hierarchical Clustering Dendrogram')
plt.xlabel('Sample Index')
plt.ylabel('Distance')
plt.show()
# Анализ результатов
data['Cluster'] = clusters
cluster_summary = data.groupby('Cluster').mean()
print(cluster_summary)
```
Это пример кода для проведения иерархической кластеризации на наборе данных о потреблении энергии в разных странах. В результате мы получаем кластеры стран с похожими паттернами потребления энергии и можем проанализировать эти кластеры для выявления интересных закономерностей.
Для выполнения примера нам нужен набор данных о потреблении энергии в различных странах. Давайте используем набор данных "World Energy Consumption" из открытых источников.
Вы можете найти набор данных о потреблении энергии в различных странах на различных открытых платформах для обмена данными, таких как Kaggle, UCI Machine Learning Repository, или просто выполнить поиск в интернете по запросу "world energy consumption dataset".
После того, как вы загрузите набор данных, вы можете использовать его в коде, приведенном выше, для проведения кластерного анализа.
Метод DBSCAN (Density-Based Spatial Clustering of Applications with Noise)
Это алгоритм кластеризации, который основан на плотности данных. Он идентифицирует кластеры как плотные области в пространстве данных, разделенные редкими областями. Суть заключается в том, что объекты, находящиеся в плотных областях, считаются частью кластера, в то время как объекты, находящиеся в редких областях, считаются выбросами, то есть не принадлежащими ни к одному кластеру.
Шаги алгоритма DBSCAN включают определение двух основных параметров: радиус эпсилон (eps) и минимальное количество объектов в окрестности (min_samples). Затем алгоритм приступает к маркировке ядерных объектов, которые попадают в окрестность других ядерных объектов. После этого кластеры формируются путем объединения ядерных объектов и их ближайших соседей.