Лекция 3 методы и стадии data mining


Сравнение свободного поиска и прогностического моделирования с



Pdf көрінісі
бет3/8
Дата29.01.2024
өлшемі328.87 Kb.
#490142
түріЛекция
1   2   3   4   5   6   7   8
ЛЕКЦИЯ 3 МЕТОДЫ И СТАДИИ DATA MINING

Сравнение свободного поиска и прогностического моделирования с 
точки зрения логики 
Свободный поиск раскрывает общие закономерности. Он по своей природе 
индуктивен. Закономерности, полученные на этой стадии, формируются от 
частного к общему. В результате мы получаем некоторое общее знание о 
некотором классе объектов на основании исследования отдельных 
представителей этого класса. 
Правило: "Если возраст соискателя < 20 лет и желаемый уровень 
вознаграждения > 700 условных единиц, то в 75% случаев соискатель ищет 
работу программиста" 


На основании частного, т.е. информации о некоторых свойствах класса 
"возраст < 20 лет" и "желаемый уровень вознаграждения > 700 условных 
единиц", мы делаем вывод об общем, а именно: соискатели - программисты. 
Прогностическое моделирование, напротив, дедуктивно. Закономерности, 
полученные на этой стадии, формируются от общего к частному и единичному. 
Здесь мы получаем новое знание о некотором объекте или же группе объектов 
на основании: 

знания класса, к которому принадлежат исследуемые объекты; 

знание общего правила, действующего в пределах данного класса 
объектов. 
Знаем, что соискатель ищет руководящую работу и его стаж > 15 лет, на 
65% можно быть уверенным в том, что возраст соискателя > 35 лет. 
На основании некоторых общих правил, а именно: цель соискателя - 
руководящая работа и его стаж > 15 лет, мы делаем вывод о единичном - 
возраст соискателя > 35 лет. 
Следует отметить, что полученные закономерности, а точнее, их 
конструкции, могут быть прозрачными, т.е. допускающими толкование 
аналитика (рассмотренные выше правила), и непрозрачными, так называемыми 
"черными ящиками". Типичный пример последней конструкции - нейронная 
сеть. 
3. Анализ исключений (forensic analysis) 
На третьей стадии Data Mining анализируются исключения или аномалии, 
выявленные в найденных закономерностях
Действие, выполняемое на этой стадии, - выявление отклонений (deviation 
detection). Для выявления отклонений необходимо определить норму, которая 
рассчитывается на стадии свободного поиска
Вернемся к одному из примеров, рассмотренному выше. 
Найдено правило "Если возраст > 35 лет и желаемый уровень 
вознаграждения > 1200 условных единиц, то в 90 % случаев соискатель ищет 
руководящую работу". Возникает вопрос - к чему отнести оставшиеся 10 % 
случаев? 
Здесь возможно два варианта. Первый из них - существует некоторое 
логическое объяснение, которое также может быть оформлено в виде правила. 
Второй вариант для оставшихся 10% - это ошибки исходных данных. В этом 


случае стадия анализа исключений может быть использована в качестве 
очистки данных


Достарыңызбен бөлісу:
1   2   3   4   5   6   7   8




©dereksiz.org 2024
әкімшілігінің қараңыз

    Басты бет