ЛЕКЦИЯ 3 МЕТОДЫ
И СТАДИИ DATA MINING
Основная особенность
Data Mining - это сочетание широкого
математического инструментария (от классического статистического анализа
до новых кибернетических
методов) и последних
достижений в сфере
информационных технологий. В технологии
Data Mining гармонично
объединились строго формализованные
методы и
методы неформального
анализа, т.е. количественный и качественный
анализ данных.
К
методам и
алгоритмам Data Mining относятся следующие:
искусственные нейронные сети, деревья решений, символьные правила,
методы ближайшего соседа и k-ближайшего соседа,
метод опорных векторов,
байесовские сети, линейная регрессия,
корреляционно-регрессионный анализ;
иерархические
методы кластерного анализа, неиерархические
методы
кластерного анализа, в том числе
алгоритмы k-средних и k-медианы;
методы
поиска ассоциативных правил, в том числе
алгоритм Apriori;
метод
ограниченного перебора,
эволюционное программирование и генетические
алгоритмы, разнообразные
методы визуализации данных и множество других
методов.
Большинство аналитических
методов,
используемые в технологии Data
Mining - это известные математические
алгоритмы и
методы. Новым в их
применении является возможность их использования при решении тех или
иных конкретных проблем, обусловленная
появившимися возможностями
технических и программных средств. Следует отметить, что большинство
методов Data Mining были разработаны в рамках теории искусственного
интеллекта.
Метод (
method) представляет
собой норму или правило, определенный
путь, способ, прием решений задачи теоретического, практического,
познавательного, управленческого характера.
Понятие
алгоритма появилось задолго до создания электронных
вычислительных машин. Сейчас
алгоритмы являются
основой для решения
многих прикладных и теоретических задач в различных сферах человеческой
деятельности, в большинстве - это задачи, решение которых предусмотрено с
использованием компьютера.
Алгоритм
(
algorithm)
-
точное
предписание
относительно
последовательности действий (шагов), преобразующих исходные данные в
искомый результат.