Big Data Деректер қоры
Big Data Деректер қорының негізгі ұғымдары Big Data (тура аударма – «үлкен деректер») дегеніміз не? «Үлкен деректер» терминін деректердің үлкен көлемін бұруға және талдауға қатысты деп болжауға болады. Деректер – компьютерді басқаратын және электр сигналдары түрінде сақталатын және берілетін магниттік, оптикалық, механикалық тасығыштарға жазылатын шамалар, белгілер немесе символдар. «Big Data» термині қысқа уақыт ішінде алуан түрлі, ауқымды, құнды деректерді жинау дегенді білдіреді. Мұндай деректерді өңдеу машинасыз жүзеге аспайды. Соңғы уақытқа дейін деректер электрондық кестелермен немесе деректер қорымен шектелді әрі барлығы өте рет ті және ұқыпты болды. Жолдар мен бағандарға орналастыруға келмейтіндердің барлығы жұмыс істеу үшін тым қиын деп есептеліп, еленбеді. Алайда ақпарат сақтау саласындағы прогресс әртүрлі деректің көп санын тіркеп, сақтап, өңдеуге қол жеткізді. Нәтижесінде қазіргі таңда «деректер» ұғымына деректер қорынан бастап, фотосуреттер, бейнелер, дыбыс жазбалары, жазбаша мәтіндер және датчиктердің деректеріне дейін кіреді. Үнемі өсіп келе жатқан ақпарат ағынын бірнеше жыл бұрын елестету де мүмкін болмаған жолмен пайдалана алатынымызды білдіреді. Бүгінде компаниялар клиенттердің нақты санаттарының қандай затты, қашан сатып алуды қалайтынын болжай алады. Big Data сондай-ақ компанияларға өз қызметін әлдеқайда тиімді орындауға көмектеседі. Термин экономикада, банк қызметінде, өндірісте, маркетингте, телекоммуникацияда, web-талдауда, медицинада және т.б. деректер ағынының жылдамдығының артуы тұрақты болатын, сапалы үлкен көлемдегі деректермен жұмыс істейтін ірі салаларда қолданылады. Мысалы, Нью-Йорк қор биржасы күн сайын өткен сессия бойынша сауда-саттық туралы 1 терабайт деректер жасайды. Әлеуметтік медиа: статистика Facebook деректер қорына күн сайын 500 терабайт жаңа деректер жүктелетінін көрсетеді, негізінен әлеуметтік желі серверлеріне фото мен бейнені жүктеуден, хабар алмасу, постылар астындағы түсініктемелер және т.б. салдарынан пайда болады. Реактивті қозғалтқыш ұшу кезінде әрбір 30 минут сайын 10 терабайт деректерді тудырады. Күн сайын мыңдаған ұшу болғандықтан, деректер көлемі петабайтқа жетеді. Ақпаратты тез жинақтаумен бірге деректерді талдау технологиясы да жылдам қарқынмен дамуда. Егер бірнеше жыл бұрын клиенттерді ұқсас қалаулары бар топтарға саралау ғана мүмкін болса, енді нақты уақыт режимінде әрбір клиент үшін модельдер құруға болады, мысалы, нақты тауарды іздеу Интернет желісі арқылы жүзеге асырылды және салынған үлгіге сәйкес лайықты жарнама немесе нақты ұсыныстар шығарылады. Модель сондай-ақ бірнеше жыл бұрын ойластырылған нақты уақыт режимінде реттелуі және қайта құрылуы мүмкін. Үлкен деректер көлемі, жасалу жылдамдығы, түрленуі және өзгергіштігі бойынша ерекшеленеді. Бұл сипаттамаларды толығырақ қарастырайық. 1. Көлем. Big Data термині үлкен өлшеммен байланысты. Деректер мөлшері – қажетті нәрселерді анықтаудағы маңызды көрсеткіш. Күн сайын 6 миллион адам сандық медианы пайдаланады, бұл – алдын ала бағалау бойынша 2.5 квинтиллион байт деректер. Сондықтан назар аудартатын бірінші сипаттама – көлемі. 2. Алуан түрлілік – келесі аспект. Ол құрылымдалған және құрылымдалмаған гетерогенді көздер мен деректер табиғатына сілтеме жасайды. Бұрын электрондық кестелер мен деректер қорлары қосымшалардың көпшілігінде қарастырылатын ақпараттың жалғыз көзі болды. Қазіргі таңда электрондық хаттар, фото, бейне, PDF файлдар, аудио формасындағы деректер де аналитикалық қосымшаларда қаралады. Құрылымдалмаған деректердің осындай алуан түрлілігі сақтау, өндіру және талдау проблемаларына алып келеді: компаниялардың 27%-і лайықты деректермен жұмыс істейтініне сенімді емес. 3. Жасалу жылдамдығы. Деректердің талаптарды қанағаттандыру үшін қаншалықты тез жи нақталатыны және өңделетіндігі әлеуетті анықтайды. Жылдамдық ақпарат көздерінен – бизнес үдерістерден, қосымшалард ң логола-рынан, әлеуметтік желілер мен ме диа сайттарынан, сенсор-лардан, мобильді құрылғылардан ақпарат ағынын ң ж л-дамдығын анықтайды. Деректер ағыны уақыт өте үлкен және үздіксіз болып келеді. 4. Өзгергіштік – өңдеу мен бас қаруды қиындататын уақыттың кейбір сәттерінде деректердің тұрақсыздығын сипаттайды. Мысалы, деректердің басым бөлігі өз ерекшелігіне сай құрылымдалмаған. Big Data ұсынатын артықшылықтар: 1. Әртүрлі көздерден деректерді жинау. 2. Нақты уақытта талдау арқылы – бизнес процестерін жақсарту. 3. Үлкен көлемді деректерді сақтау. 4. Инсайттар. Big Data құрылымдалған және жартылай құрылымдалған деректердің көмегімен жасырын ақпаратқа аса бай. 5. Үлкен деректер тәуекелді азайтуға және қолайлы тәуекел талдаушының арқасында дұрыс шешімдер қабылдауға көмектеседі. Big Dataның қиыншылықтары: 1. Деректердің құпиялылығы – Big Data біздің жеке өміріміз туралы көптеген ақпаратты қамтиды, оның құпиялылығын сақтауға толық құқымыз бар. 2. Деректерді қорғау – егер белгілі бір мақсат үшін біздің деректеріміз бөгде жандардың қолында болса, осы деректеріміздің сақталуы мен қауіпсіздігіне сенімді бола аламыз ба? Деректер қорының негізгі ұғымдары Кез келген кәсiби қызмет түрі ақпаратты жинау, сақтау және оны іріктеуді ұйымдастырумен айналысады. Бүгінгі күні белгілі бір ұйымдастыру тәсілін немесе механизмді қажет ететін деректер қоры күнделікті өмірдің ажырамас бөлігі болды. Мұндай механизмді деректер қорын басқару жүйесі (ДҚБЖ) деп атай ды. Оның негізгі ұғымдарды қарастырайық. Деректер қоры (ДҚ) – мекеменің ақпараттық қажеттіліктерін қанағаттандыруға арналған логикалық байланысқан деректердің жиынтығы (және олардың сипаттамасы). Деректер қорын басқару жүйесі (ДҚБЖ) – қолданушыларға деректер қорын анықтауға, жа сауға, қолдауға және оны бақылауға мүмкіндік беретін программалық жасақтама. Деректер қорын басқару жүйесі бұрыннан бері қолданыста, олардың көбісінің пайда болуы үлкен есептеуіш машиналарындағы құрылымдалмаған файлдар жүйелерінің пайда болуына негізделген. Деректер қорын басқару жүйелері саласында жалпыға бірдей қазіргі заманғы технологиялармен қатар, дамып келе жатқан бизнестің талаптары, корпоративті деректердің үнемі ұлғаюы және Интернет технологиялардың әсерінен жаңа бағыттары пайда болды. Реляциялық (ағылш. relation – байланыс) деректер қоры Негізгі ақпараттық ағындарды басқару бастауын дәстүрлі деректер қоры жүйесінен алатын реляциялық басқару жүйесі көмегімен жүзеге асырылады. Реляциялық деректер қоры мен клиент-сервер технологиясын біріктіру заманауи кәсіпорынға тауарлар мен қызметтер нарығында бәсекеге қабілеттілігін сақтай отырып, өз деректерін табысты басқаруға мүмкіндік береді. Реляциялық деректер қорында математикалық қатынастар теориясына негізделген қуатты теориялық негіз бар. Реляциялық деректер қоры теориясының пайда болуы, екі класқа бөлінетін сұраныстар тілін жасауға негіз болды: – қатынастарға қолданылатын арнайы операторлар арқылы сұраныстарды сипаттауға мүмкіндік беретін алгебралық тілдер; – қолданыстағы қарым-қатынастардың белгілі бір жиынтығынан жаңа қатынасты анықтайтын өрнекті жазу ережелерінің жинағы болып табылатын предикаттық есептеу тілдері. Ендеше предикаттық есептеу тілі деректер қорындағы қолданыстағы қатынастардан сұранысқа жауап ретінде алынатын жаңа қатынасты анықтау әдісі болып табылады. Реляциялық ДҚБЖ мысалдары: MySql, PostgreSql. Реляциялық модельде шынайы өмір нысандары және нысандар арасындағы байланыс, өзара байланысқан кестелер (қатынастар) көмегімен ұсынылады. ДҚБЖ функциялары бір немесе бірнеше кестеден ақпарат таңдау үшін пайдаланған жағдайда да (яғни сұраныс жасал-ғанда) нәтиже кесте түрінде ұсынылады. Сонымен қатар сұранысты басқа сұраныстың нәтижелерін пайдалану арқылы жасауға болады. Деректер қорының әр кестесі жолдар мен бағандар жиынтығынан тұрады, мұнда жолдар (жазба) – нысан, нақты оқиға немесе құбылыс саны, ал бағандар (өрістер) – нысанның, оқиға немесе құбылыстың атрибуттары (белгілер, сипаттамалар, параметрлер). Деректер қорымен жұмыс жасау барысында пайда болатын ең негізгі мәселе – іздеуді ұйымдастыру. Сонымен қатар деректер қорында әдетте ақпарат көп болғандықтан, программалаушыларға тек іздеуді ғана емес, тиімді іздеуді жүзеге асыру міндеті қойылады, яғни іздеуді салыстырмалы түрде аз уақытта және жеткілікті дәлдікпен ұйымдастыру. Ол үшін (сұраныстардың өнімділігін тиімділеу үшін) кестенің кейбір өрістеріне индекстеу жүргізіледі. Индекстер бір бағанның көрсетілген мәнімен жолдарды жылдам іздеу үшін ыңғайлы. Индекссіз кесте бірінші жазбадан бастап тиісті жолдар табылмайынша, бүкіл кесте бойынша оқылады. Кесте неғұрлым үлкен болса, шығындар да көп болады. Егер кестеде қарастырылатын бағандар бойынша индекс болатын болса, онда деректер қоры деректердің барлығын қарастырмай, деректер файлының ортасынан іздеу үшін позицияны жылдам анықтай алады. Деректер қоры кестелерінің арасындағы реляциялық байланыс Шынайы өмір нысандары арасындағы байланыстар, деректер құрылымында көрініс табуы мүмкін немесе фор-мальды емес деңгейде болуы мүмкін. Деректер қорының екі немесе одан да көп кестелерінің расында бағынышты қатынастар болуы мүмкін. Олар негізгі (ата-ана) кестенің әрбір жазбасы үшін бағынышты (бала) кестенің бір немесе бірнеше жазбасы болуы мүмкін. Деректер қоры кестелерінің арасындағы байланыстың 3 түрі бар: – «біреуден – көпке»; – «біреуден – біреуге»; – «көптен – көпке». «Біреуден – көпке» қатынасы «Біреуден – көпке» қатынасында негізгі кестенің бір жазбасына бағынышты кестенің бірнеше жазбасы сай келеді. «Біреуден – көпке» байланысын кейде «көптен – біреуге» деп те атайды. Екі жағдайда да кестелер арасындағы байланыс өзгеріссіз қалады. Байланыстың бұл түрі реляциялық деректер қоры үшін кең таралған. Сонымен қатар ол деректердің иерархиялық құрылымын модельдеуге мүмкіндік береді. «Біреуден – біреуге» қатынасы «Біреуден – біреуге» қатынасында не гізгі кестенің бір жазбасына бағынышты кестенің бір жаз басы сәй кес келеді. Қатынастың бұл түрі «біреуден – көпке» қатынасына қарағанда аз қолданылады. Егер деректер қорының кестесі қосымша ақпараттардан ұлғайып кетпеуін қаласақ, осы қатынас түрін қолданамыз. Алайда бірнеше кестедегі өзара байланысқан ақпараттарды оқу үшін, бір кестеде сақталған деректерден бір ақпаратты оқудың орнына бірнеше операция орындау керек болады. «Көптен – көпке» қатынасы «Көптен – көпке» қатынасы мынадай жағдайларда қолданылады: – негізгі кестедегі бір жазбаға бағынышты кестенің бірден көп жазбалары сәйкес келеді; – бағынышты кестенің бір жазбасына негізгі кестенің бірнеше жазбасы сәйкес келеді. Реляциялық деректер қорындағы кез келген «көптен – көпке» қатынасын, қосымша кестелерді енгізу арқылы «біреуден – көпке» қатынасына ауыстыру керек
Достарыңызбен бөлісу: |