Читать книгу Нейросети. Основы онлайн

K-means

K-means – один из наиболее популярных и простых в реализации алгоритмов кластеризации. Основная идея заключается в разделении данных на ( K ) кластеров, минимизируя внутрикластерное расстояние, то есть расстояние между точками внутри каждого кластера и их соответствующим центроидом. Процесс начинается с выбора ( K ) начальных центроидов, которые могут быть выбраны случайным образом или на основе других методов. Затем алгоритм итеративно выполняет следующие шаги:

1. Назначение точек кластерам: Каждая точка данных присваивается тому кластеру, центроид которого находится ближе всего.

2. Обновление центроидов: После распределения всех точек данные центроиды пересчитываются как среднее всех точек, принадлежащих каждому кластеру.

3. Конвергенция: Шаги назначения и обновления повторяются до тех пор, пока изменения в позициях центроидов не станут незначительными, что означает, что центроиды стабилизировались и алгоритм достиг сходимости.

Преимущества K-means включают его простоту и эффективность при работе с большими наборами данных. Однако алгоритм чувствителен к выбору начальных центроидов и может застревать в локальных минимумах. Кроме того, он предполагает, что кластеры имеют сферическую форму и равные размеры, что не всегда соответствует реальности данных.

Иерархическая кластеризация

Иерархическая кластеризация – метод, который создает иерархию вложенных кластеров, представляемую в виде дендрограммы. Существует два основных подхода к иерархической кластеризации: агломеративный и дивизионный.

1. Агломеративная кластеризация (снизу вверх): Каждый объект начинается как отдельный кластер, и на каждом шаге алгоритм объединяет два ближайших кластера до тех пор, пока все объекты не будут объединены в один кластер.

2. Дивизионная кластеризация (сверху вниз): Все объекты начинают как один кластер, который на каждом шаге делится на два наиболее удаленных кластера, продолжая деление до тех пор, пока каждый объект не окажется в своем собственном кластере.

Иерархическая кластеризация не требует предварительного задания числа кластеров, что является ее значительным преимуществом. Пользователь может выбирать наиболее подходящий уровень иерархии в зависимости от задачи. Основным недостатком метода является его вычислительная сложность, что делает его менее подходящим для очень больших наборов данных.