5.6.2. Деректерді зияткерлік өңдеу технологиясы
Деректерді зияткерлік талдау (ДЗТ) —бұл жасырын заңдылықта деректерді іздеуге негізделген шешімдерді қабылдауды қолдау үдерісі. ДЗТ көптеген әдістері алғашқыда 1970-1980 жж. жасанды зият теориясы шеңберінде әзірленді, бірақ тек соңғы жылдары, корпоративтік деректер көлемінің жылдам өсуін өңдеу мәселесі туындаған кезде ғана тарала бастады. Деректерді зияткерлік талдау шикізаты реляциялық ДБЖ кестесі бола алады. Дәл осылардан деректерді зияткерлік талдау тарихы басталды. Көптеген жағдайларда анағұрлым тиімді болып OLAP-технологиялары арқылы өңдеуден кейін алынған деректерге қатысты ДЗТ қолдану болып табылады.
Деректерді зияткерлік талдау міндеттері, бәрінен бұрын шығарылатын ақпараттар түрі, яғни табылған заңдылық түрлері бойынша топтастырылады. Қандай міндеттерді зияткерлік талдауға жатқызуға болатындығы жөнінде бірыңғай пікір жоқ. Беделді дереккөздердің көпшілігі зияткерлік өңдеуге, топстастыруды, кластерлеуді, қауымдастықты анықтау, тізбектілікті болжау, болжамды жатқызады.
Топтастыру— зияткерлік талдаудың анағұрлым қарапайым әрі кең таралған міндеті. Топтастыру міндеттерін шешу нәтижесінде белгілер анықталады және олар зерттелетін дерек жиынының нысандар тобын сипаттайды— санаттар; осы белгі бойынша жаңа нысанды осы және өзге санатқа жатқызуға болады. Топтастыру, біркелкі нысандар тобын сипаттайтын белгілерді анықтауға мүмкіндік береді. Санаттар сипаттамасы алдын ала (талдауға дейін) белгілі болатындығы шамаланады. Топтастыру шешімдер әдісі ретінде, шешімдер ағашының индукциясын, нейрон желілерін және т.б. қолданылады.
Кластерлеу, топтастыру идесын анағұрлым күрделі жағдайға таратады, санаттардың өздері алдын ала анықталмаған. Кластерлеу міндеті топтастыру міндетінен анағұрлым күрделі. Кластерлеу әдістерін орындау нәтижесінде бастапқы деректер біркелкі топтарға (кластерлерге) бөлінеді. Бұл топтардың әрқайсысына қатысты (мысалы, сатып алушылар тобына қатысты), белгілі саясатты қолданады. Кластерлеу, сипаттамалалық рәсім болып табылады, ол ешбір статистикалық қорытындылар жасамайды, бірақ құрамдас талдау жүргізу және «деректер құрылымын» зерделеуге мүмкіндік береді. «Кластер» түсінігін әр келкі анықталған: әр зерттеудің өз
«кластері» бар. Кластер (cluster) түсінігі «жинақталу», «бір шоқ» деп аударылады. Кластерді жалпы қасиеттері бар нысандар тобы
179
ретінде сипаттауға болады. Кластердің сипаттамасы ретінде екі белгіні атауға болады: ішкі біркелкілік және сыртқы оқшаулық. Кластерлеу, бастапқыда, биология, антрополгия, психология секілді ғылымдарда анағұрлым кеңінен қолданылды. Экономикалық міндеттерді шешу үшін кластерлеу ұзақ уақыт бойы экономикалық деректер мен құбылыстардың ерекшелігіне байланысты аз қолданылды.
Қауымдастықты анықтау — екі (одан да көп) оқиғаны бірдей
белгілейтін деректердегі заңдылықтарды іздеу. Қауымдастыққа тән мысал бір мезгілде сатып алынатын өнімдер жұбын (теледидар мен бейнемагнитафон, тіс пастасы мен тіс щеткесі және т.б.) анықтау міндетінде зерттеледі. Қауымдастықтық ережелер әртүрлі саудада (бірлесіп алға жылжытатын тауарларды анықтау), тұтынушыларды сегменттеу үшін (сатып алушылармен анықталған, компанияның тұтынушылардың жалпы сипаттамаларын анықтау) қолданылады және т.б.
Тізбектілікті іздеу — кейбір белгіленген уақыттардағы бөлінумен оқиғалардың пайда болуы кезіндегі деректердегі заңдылықтарды анықтау. Тізбектілік транзакциялар арасындағы уақытша заңдылықты табуға мүмкіндік береді. Басқаша сөздермен айтқанда, тізбектілік оқиғалардың уақытпен байланысты жоғары ықтимал тізбегі анықталады. Нақты қауымдастық тізбектілітің нөлге тең уақытша кешеуілдеуімен болатын жеке жағдай болып табылады. Тізбектілік ережесі: X оқиғасынан кейін, белгілі уақыт арқылы Y оқиғасы болады. Сонымен, егер бейнемагнитафон теледидармен бірге сатып алынбаған болса, онда бір ай ішінде жаңа теледидарды сатып алғаннан кейін, бейнемагнитафонды сатып алу 60 % жағдайларда болады.
Болжау— ағымдағы және өткен деректерді зерттеу негізінде нысандандырылған болжау рәсімдері сандық көрсеткіштердің болашақ мәнін бағалауға мүмкіндік береді. Осы тәрізді міндеттерде көбінесе математикалық статистика әдістері, сонымен бірге нейрон желілері қолданылады. Болжау (гр. Prognosis шыққан) осы сөздің кең мағынасында, болашақта басып озатын бейне ретінде анықталады. Болжау нақты нысанды немесе жағдайда ретроспективті деректер негізінде анықтауға бағыталған, яғни өткен мен бүгіндегі жағдайын талдау. Осылайша, болжау міндеттерін шешу деректерді кейбір үйретуші іріктеуді талап етеді. Болжауды тәуелд және тәуелсіз айнымалылар арасындағы атқарымдық тәуелділікті белгілеу ретінде анықтауға болады. Болжау адами қызметтің көптеген салаларында кең таралған және талап етілген
180
міндет болып табылады. Болжау нәтижесінде қате, негізсіз немесе субъективті шешімдерді қабылдау тәуекелін азайтады.
Болжау міндеттерін шешудегі ең ортақ белгі осындай қосалқы міндеттерді шешуге негізделеді: — болжау үлгілерін іріктеу, баламалық пен құрылған болжамның дәлдігін талдау.
Болжау міндеттеріне мысалдар: ақша қаражатының қозғалысы, аграрлық мәдениеттің өнімділігі, кәсіпорынның қржы тұрақтылығы. Маркетинг саласына тән болып нарықты болжау (market fore casting) міндеттері саналады. Аталған міндеттерді шешу нәтижесінде белгілі нарық жағдаятының болашақ дамуы, болашақ кезеңдерде нарықтық жағдайлардың өзгерісі бағаланады, нарық беталысы анықталады (құрылымдық өзгерістер, сатып алушылардың қажеттіліктері, бағаның өзгеруі).
Болжау міндеттері, экономикалық және қаржылық салаларынан басқа, алуан түрлі салаларға қойылады: медицина, фармакология; қазір саяси болжау танымал болып келеді.
Достарыңызбен бөлісу: |