49
Information Technology
среднего значения точек в окне будет постепенно перемещаться
в области с более высокой плотностью точек. Алгоритм будет
остановлен, как только центроиды достигнут позиции, из ко-
торой он не сможет двигаться дальше.
Плюсы: нет необходимости выбирать количество кластеров,
хорошо сочетается с естественным управлением данными.
Минусы: плохая работа в случае большой размерности, где
количество кластеров резко меняется, нет прямого контроля
над количеством кластеров.
3. Основанная на плотности пространственная кластери-
зация для приложений с шумами (DBSCAN)
Это алгоритм кластеризации, основанной на плотности —
если дан набор точек в некотором пространстве, алгоритм груп-
пирует вместе точки, которые тесно расположены (точки со
многими близкими соседями), помечая как выбросы точки, ко-
торые находятся одиноко в областях с малой плотностью (бли-
жайшие соседи которых лежат далеко). Алгоритм работает
путем вычисления расстояния между каждой точкой и всеми
другими точками. Затем мы помещаем точки в одну из трех
категорий: основная точка, граница и точки шума. Основная
точка: точки, расстояние которых относительно точки ниже по-
рога, определенного эпсилоном. Граница: точка, которая не на-
ходится в непосредственной близости к одной или нескольким
основным точкам. Границы включены в кластер ближайшей ба-
зовой точки. Точка шума: точки, которые недостаточно близки
к основным точкам, чтобы считаться пограничными точками.
Шумовые точки игнорируются. То есть они не являются частью
какого-либо кластера.
Плюсы: возможность находить кластеры произвольной
формы, имеет понятие шума и устойчив к выбросам.
Минусы: не полностью однозначен — краевые точки, ко-
торые могут быть достигнуты из более чем одного кластера,
могут принадлежать любому из этих кластеров, что зависит от
порядка просмотра точек, не может хорошо кластеризовать на-
боры данных с большой разницей в плотности. [3]
Таким образом, мы рассмотрели необходимость кластери-
зации, различные типы алгоритмов кластеризации, а также их
плюсы и минусы. Кластеризация — действительно очень инте-
ресная тема в машинном обучении, но есть много других типов
алгоритмов кластеризации, которые стоит изучить.
Литература:
1. Различия между искусственным интеллектом, машинным обучением и глубоким обучением. — Текст: электронный //
Хабр: [сайт]. — URL: https://habr.com/ru/post/526984/ (дата обращения: 22.12.2020).
2. Clustering in Machine Learning. — Текст: электронный // upGrad blog: [сайт]. — URL: https://www.upgrad.com/blog/cluster-
ing-in-machine-learning/ (дата обращения: 22.12.2020).
3. DBSCAN. — Текст: электронный // Википедия: [сайт]. — URL: https://ru.wikipedia.org/wiki/DBSCAN (дата обращения:
22.12.2020).
Достарыңызбен бөлісу: |