48
Информационные технологии
различные географические исследования, исследование других
планет, обезвреживание бомб или обычное выполнение по-
вседневной рутинной работы, например, уборку. Компью-
теры значительно продвинулись вперед и на сегодняшний день
они самостоятельно могут выполнять огромное количество
функций: управление автомобилями и самолетами, различное
прогнозирование, передача новостей или же просто развлекать
нас. Сегодня многие заводские работы выполняются промыш-
ленными роботами. Это привело к удешевлению производства
различных товаров, в том числе автомобилей и электроники.
Искусственный интеллект успешно используется в ши-
роком спектре областей, включая медицинскую диагностику,
торговлю акциями, управление роботами, право, научные от-
крытия и игрушки. Промышленные роботы также использу-
ются для упаковки промышленных товаров, транспортировки
товаров по складам или больницам, или удаления крошечных
электронных компонентов с большой точностью, скоростью
и надежностью. Роботы могут перемещаться, ощущать окру-
жающую среду и управлять ею, предсказывать действия других
и проявлять разумное поведение. Ученые заинтересованы
в создании роботов, похожих на человека.
Рассмотрим подробнее одно из направлений в искус-
ственном интеллекте — машинное обучение. Основной
принцип машинного обучения заключается в том, что машины
получают данные и «обучаются» на них. В настоящее время
это наиболее перспективный инструмент для бизнеса, осно-
ванный на искусственном интеллекте. Системы машинного об-
учения позволяют быстро применять знания, полученные при
обучении на больших наборах данных, что позволяет им преу-
спевать в таких задачах, как распознавание лиц, распознавание
речи, распознавание объектов, перевод, и многих других. В от-
личие от программ с закодированными вручную инструкциями
для выполнения конкретных задач, машинное обучение позво-
ляет системе научиться самостоятельно распознавать шаблоны
и делать прогнозы.
Машинное обучение — одна из самых популярных техно-
логий в 2020 г., поскольку объем данных увеличивается изо дня
в день, потребность в машинном обучении также растет в гео-
метрической прогрессии. Машинное обучение — это очень об-
ширная тема, которая имеет разные алгоритмы и варианты ис-
пользования в каждой области и отрасли. Один из них — это
обучение без учителя, в котором мы можем увидеть использо-
вание кластеризации. [1]
Обучение без учителя — это метод, при котором машина
учится самостоятельно на основе данных без вмешательства
со стороны. Поскольку данные «не маркированы», у машины
нет правильного ответа, чтобы учиться на ней, но машина сама
находит некоторые закономерности на основе данных, чтобы
найти ответы на бизнес-проблему. [2] Иными словами, это при-
годно только для задач, в которых известны описания множе-
ства объектов (обучающей выборки), и требуется обнаружить
внутренние взаимосвязи, зависимости, закономерности, суще-
ствующие между объектами.
Кластеризация — это метод машинного обучения без учи-
теля, который включает в себя группировку заданных немарки-
рованных данных. В каждом очищенном наборе данных с по-
мощью алгоритма кластеризации мы можем кластеризовать
данные точки данных в каждую группу. Алгоритм кластеризации
предполагает, что точки данных, которые находятся в одном кла-
стере, должны иметь похожие свойства, а точки данных в разных
кластерах должны иметь сильно различающиеся свойства.
Зачем нужна кластеризация?
Кластеризация — это широко используемый алгоритм ма-
шинного обучения, который позволяет нам находить скрытые
связи между точками данных в нашем наборе данных.
Примеры:
1. Сегментирование клиентов на основе их сходства с пре-
дыдущими клиентами
2. Обработка изображений в основном в биологических
исследованиях для определения основных закономерностей
3. Создание иерархии тем на основе набора текстовых
данных в соответствии с сходством контента
4. Фильтрация спама
5. Выявление мошенничества и преступных действий
Давайте разберемся какие бывают типы кластеризации и уз-
наем их плюсы и минусы.
В машинном обучении существует множество типов алго-
ритмов кластеризации. Остановимся на следующих трех алго-
ритмах:
1. Кластеризация k-средних
Это самый популярный алгоритм кластеризации среди
других алгоритмов кластеризации в машинном обучении. Он
используется во многих ведущих отраслях. Это одна из самых
простых моделей как в реализации, так и в понимании. Сна-
чала выбирается случайное число из k для использования и слу-
чайным образом инициализируется их соответствующие цен-
тральные точки. Затем каждая точка данных классифицируется
путем вычисления расстояния между этой точкой и центром
каждой группы, а затем кластеризации точки данных в кластер,
центр которого находится ближе всего к нему. Далее повторно
вычисляется центр группы, на основе средних значений всех
векторов в группе. Шаги повторяются в течение n раз или до тех
пор, пока центры групп не сильно не изменятся.
Плюсы: очень быстро, минимум вычислений, линейная
сложность O(n).
Минусы: выбор значения k, различные центры кластери-
зации, непоследовательность.
2. Кластеризация сдвига среднего значения
Алгоритм среднего сдвига в основном назначает точки
данных кластерам итеративно, смещая точки в направлении
наивысшей плотности точек данных, то есть центроида кла-
стера. В отличие от алгоритма k-средних, данный алгоритм не
делает никаких предположений; следовательно, это непараме-
трический алгоритм, а также разница заключается в том, что не
нужно заранее указывать количество кластеров, поскольку ко-
личество кластеров будет определяться алгоритмом по данным.
Алгоритм начинается с выбора «окна», которое будет пере-
мещаться с центром в случайно выбранной точке. После каждой
итерации окно смещается в сторону областей с более высокой
плотностью путем смещения центральной точки к среднему
значению точек внутри окна. Плотность внутри окна увеличи-
вается с увеличением количества точек внутри него. Смещение
“Young Scientist” . # 52 (342) . December 2020
Достарыңызбен бөлісу: |