Министерство экономического развития и торговли
Российской Федерации
Государственный университет - Высшая школа экономики
Факультет БИЗНЕС-ИНФОРМАТИКИ
Программа дисциплины
Анализ данных
для направления/ специальности _____________________ подготовки магистра (например: для специальности 030201.65 «Политология» подготовки специалиста или например: для направления 030200.62 «Политология» подготовки бакалавра)
Авторы С.О. Кузнецов, Е.Р. Горяинова
Рекомендована секцией УМС Одобрена на заседании кафедры
_____________________________ ________________________________
Председатель Зав. кафедрой
_____________________________ ________________________________
«_____» __________________ 200 г. «____»_____________________ 200 г
Утверждена УС факультета
_________________________________
Ученый секретарь
_________________________________
« ____» ___________________200 г.
Москва
Тематический план курса « Анализ данных»
№
|
Название темы
|
Всего
|
Аудиторные часы
|
самост. работа
|
|
|
часов
|
лекции
|
семинары
|
|
1
|
Основные методы статистического анализа данных.
|
18
|
6
|
2
|
10
|
2
|
Исследование однородности двух выборок
|
26
|
6
|
6
|
14
|
3
|
Дисперсионный анализ
|
24
|
6
|
6
|
12
|
4
|
Анализ статистической взаимосвязи социально-экономических явлений
|
40
|
12
|
8
|
20
|
5
|
Регрессионный анализ
|
10
|
2
|
4
|
4
|
6
|
Факторный анализ
|
20
|
4
|
6
|
10
|
7
|
Кластерный анализ
|
18
|
4
|
4
|
10
|
8
|
Анализ данных на графах и данные на решетках
|
26
|
6
|
6
|
14
|
9
|
Модели машинного обучения и решетки понятий
|
28
|
6
|
8
|
14
|
|
Итого
|
210
|
52
|
50
|
108
|
Базовый учебник по курсу
1. Тюрин Ю.Н., Макаров А.А. Анализ данных на компьютере. – М.: Инфра. – М, 2003.
2. Кибзун А.И., Горяинова Е.Р., Наумов А.В. Теория вероятностей и математическая статистика. Базовый курс с примерами и задачами. - М.:Физматлит, 2005
3. Ganter B. and Wille R., Formal Concept Analysis: Mathematical Foundations, Springer, 1999.
Дополнительная литература по курсу
1. Интерпретация и анализ данных в социологических исследованиях (под редакцией В.Г. Андреенкова и Ю.Н.Толстовой). – М.: Наука, 1987.
2. Холлендер М., Вулф Д. Непараметрические методы статистики. – М.: Финансы и статистика, 1983.
3. Айвазян С.А., Енюков И.С., Мешалкин Л.Д. Прикладная статистика: Исследование зависимостей. Справочное издание под ред. Айвазяна С.А. – М.: Финансы и статистика, 1985.
4. Ивченко Г.И., Медведев Ю.И. Математическая статистика. – М.: Высшая школа, 1992.
5. Дрейпер Н., Смит Г. Прикладной регрессионный анализ: В 2-х книгах, Кн. 1. – М.: Финансы и статистика, 1986. Кн. 2. – М.: Финансы и статистика, 1987.
6. Иберла К. Факторный анализ. – М.: Статистика, 1980.
7. Кендел М. Ранговые корреляции. – М.: Статистика, 1975.
8. Леман Э. Проверка статистических гипотез. – М.: Наука, 1964.
9. Хьюбер П. Робастность в статистике. – М.: Мир, 1984.
10 Хампель Ф., Рончетти Э., Рауссей П., Штаэль В. Робастность в статистике. Подход на основе функции влияния. – М.: Мир, 1989.
11. Дэниел К. Применение статистики в промышленном эксперименте. – М.: Мир, 1979.
12. Факторный, дискриминантный и кластерный анализ. – М.: Финансы и статистика, 1989.
13. Кокрен У. Методы выборочного исследования. – М.: Статистика, 1976
14. Хеттманспергер Т. Статистические выводы, основанные на рангах. – М.:Финансы и статистика,1987.
15. Биркгоф Г., Теория решеток. - М.: Наука, 1984. - 568 с.
16. Биркгоф Г., Барти Т., Современная прикладная алгебра, М., Лань, 2005 – 400 с.
17. Davey B. A. and Priestley H. A., Introduction to Lattices and Order. Cambridge University Press, 1990.
18. Мейер Д., Теория реляционных баз данных. М.: Мир, 1987.
19. Mitchell T., Machine Learning, 1997.
20. Кузнецов С.О. Автоматическое обучение на основе анализа
формальных понятий // Автоматика и телемеханика. 2001. - N 10. - с.3-27.
21. Duquenne V. and Guigues J.-L., Familles minimales d'implications informatives resultant d'un tableau de donnees binaires, Math. Sci. Humaines, Vol. 95, P. 5-18, 1986.
22. Fayyad U.M., Piatetsky-Shapiro G., Smyth P., Uthurusamy R., Advances in Knowledge Discovery and Data Mining, AAAI Press, 1996.
23. Ganter B. and Kuznetsov S.O., Formalizing Hypotheses with Concepts, Proc. 8th Int. Conf. on Conceptual Structures, ICCS'00, G. Mineau and B. Ganter, Eds., Lecture Notes in Atificial Intelligence, Vol. 1867, 2000, P. 342-356.
24. Ganter B. and Kuznetsov S.O., Pattern Structures and Their Projections, Proc. 9th Int. Conf. on Conceptual Structures, ICCS'01, G. Stumme and H. Delugach, Eds., Lecture Notes in Artificial Intelligence, Vol. 2120. 2001, P.129-142.
25. Kuznetsov S.O., On Computing the Size of a Lattice and Related Decision Problems, Order, 2001, Vol. 18 (4), P. 313-321.
26. Kuznetsov S.O. and Obiedkov S.A., Comparing performance of algorithms for generating concept lattices, J. Exp. Theor. Artif. Intell., 2002, Vol. 14, 2-3, P. 189-216.
27. Kuznetsov S.O., Complexity of Learning in Concept Lattices from Positive and Negative Examples, Discrete Applied Mathematics. 2004, no. 142, P. 111-125.
28. Kuznetsov S.O., On Complexity of Computing the Duquenne-Guigues Basis, Journal of Universal Computer Science. 2004, Vol. 10, no. 8, P. 927-933.
29. Kuznetsov S.O., Galois Connections in Data Analysis: Contributions from the Soviet Era and Modern Russian Research, in Formal Concept Analysis: Foundations and Applications, B. Ganter, G. Stumme, R. Wille, Eds., Lecture Notes in Artificial Intelligence, State-of-the Art Ser. 2005, Vol. 3626, P. 196-225.
30. Luxenburger M., Implications partielle dans un contexte, Math. Sci. Hum., 1991.
Формы контроля и структура итоговой оценки.
Текущий контроль – 2 письменные контрольные работы (90 мин).
Итоговый контроль – письменный экзамен (120 мин.)
Итоговая оценка складывается из следующих элементов:
работа на семинарах – 10%;
2 письменные контрольные работы – 20% каждая;
домашнее задание – 20%;
письменный экзамен – 30%
Содержание программы курса «Анализ данных»
Тема 1. Основные методы статистического анализа данных
Введение.
Основы проверки статистических гипотез.
Задача с дихотомическими данными.
Биномиальный критерий.
Определение объема репрезентативной выборки для однородной и стратифицированной генеральной совокупности.
Основная литература
1. Кибзун А.И., Горяинова Е.Р., Наумов А.В. Теория вероятностей и математическая статистика. Базовый курс с примерами и задачами. - М.:Физматлит,2005 (глава 5 с.165-168, 188-191,214).
2. Кокрен У. Методы выборочного исследования. М.: Статистика, 1976(глава 3 с.64-74,89-90,глава 5 с.103-111).
3. Холлендер М., Вулф Д. Непараметрические методы статистики. – М.: Финансы и статистика, 1983 (глава 2 с.32-44).
Тема 2. Исследование однородности двух выборок
Понятие об однородности выборок.
Выявление неоднородности, связанной со сдвигом (классический критерий Стьюдента, критерий Вилкоксона, Фишера – Йейтса) или масштабом (классический F- критерий, критерий Ансари-Брэдли). Проверка однородности против альтернатив общего вида (критерий Колмогорова – Смирнова).
Относительная асимптотическая эффективность (ОАЭ) статистических критериев по Питмену. Сравнительный анализ ОАЭ изученных критериев для различных распределений выборок.
Понятие робастности (устойчивости) в терминах кривой чувствительности (IC), IC для статистики Стьюдента и Вилкоксона.
Основная литература
1. Тюрин Ю.Н., Макаров А.А. Анализ данных на компьютере. – М.: Инфра. – М, 2003(глава 3 с.93-118, глава 5 с.165-190).
2. Хеттманспергер Т. Статистические выводы, основанные на рангах. – М.:Финансы и
статистика,1987 (глава 2 с.76-87).
3.Холлендер М., Вулф Д. Непараметрические методы статистики. – М.: Финансы и статистика, 1983 (глава 5 с.101-110, глава 10 с.232-242).
Тема 3. Дисперсионный анализ
Задача однофакторного анализа (классический F-критерий, ранговый критерий Краскела – Уоллиса). Доверительное оценивание контрастов в гауссовской модели. Критерий Джонкхиера для упорядоченных альтернатив. ОАЭ классического критерия и критерия Краскела – Уоллиса.
Задача двухфакторного анализа (F-критерий, ранговый критерий Фридмана, критерий Пейджа). ОАЭ классического критерия и критерия Фридмана.
Основная литература
1. Тюрин Ю.Н., Макаров А.А. Анализ данных на компьютере. – М.: Инфра. – М, 2003 (главы 6,7 с.191-230).
Тема 4. Анализ статистической взаимосвязи социально-экономических явлений
Шкалы измерений (количественная, порядковая, номинальная).
Исследование связи между номинальными переменными (таблица сопряженности признаков, критерий хи-квадрат, меры связи признаков: коэффициенты контингенции, ассоциации, среднеквадратической сопряженности, Пирсона, Крамера).
Исследование связи между порядковыми переменными (ранговый коэффициент корреляции Спирмена, коэффициент согласованности Кендалла, коэффициент конкордации).
Случайные векторы. Ковариационная матрица. Независимость и некоррелированность компонент случайного вектора. Выборочный коэффициент корреляции. Частные коэффициенты корреляции.
Анализ структуры и тесноты связи между количественными переменными. Критерий хи-квадрат.
Измерение тесноты связи при нелинейной зависимости (индекс корреляции и его оценивание по сгруппированным и несгруппированным данным).
Анализ множественных связей (множественный коэффициент корреляции, его вычисление и свойства для общих и нормальных моделей).
Основная литература
1. Тюрин Ю.Н., Макаров А.А. Анализ данных на компьютере. – М.: Инфра. – М, 2003(глава 9 с.267-290).
2. Айвазян С.А., Енюков И.С., Мешалкин Л.Д. Прикладная статистика: Исследование зависимостей. Справочное издание под ред. Айвазяна С.А. – М.: Финансы и статистика, 1985 (главы 1,2 с.56-124).
Тема 5. Регрессионный анализ
Задача линейной регрессии. Проблема выбора вида функции регрессии.
Методы оценивания параметров.
Свойства МНК оценок.
Некоторые критерии проверки адекватности в нормальной регрессионной модели.
Основная литература
1. Кибзун А.И., Горяинова Е.Р., Наумов А.В. Теория вероятностей и математическая статистика. Базовый курс с примерами и задачами. – М.:Физматлит,2005(глава 7 с.204-213).
2. Дрейпер Н., Смит Г. Прикладной регрессионный анализ: В 2-х книгах, Кн. 1. – М.: Финансы и статистика, 1986. Кн. 2. – М.: Финансы и статистика, 1987(глава 2 с.104-148).
Тема 6. Факторный анализ
Модель факторного анализа.
Методы выделения общих факторов (метод главных компонент, метод главных факторов, метод максимального правдоподобия, метод наименьших квадратов, альфа-факторный анализ Кайзера).
Критерий, позволяющий оценить количество общих факторов.
Методы ортогонального вращения, позволяющие получить простую факторную структуру (квартимакс, варимакс, эквимакс).
Основная литература
1. Факторный, дискриминантный и кластерный анализ. – М.: Финансы и статистика, 1989 (с. 5-39).
2. Иберла К. Факторный анализ. – М.: Статистика, 1980 (главы 1-4 с.12-172).
Тема 7. Кластерный анализ
Определение меры расстояния между объектами (Евклидова, Минковского, Махаланобиса)
Иерархические агломеративные методы группировки («ближнего соседа», «дальнего соседа», средней связи, центроидный).
Итеративные кластерные процедуры (метод К-средних).
Проверка адекватности разбиения на кластеры методами дисперсионного анализа.
Основная литература
1. Факторный, дискриминантный и кластерный анализ. – М.: Финансы и статистика, 1989 (с.139-201).
Тема 8. Анализ данных на графах и данные на решетках
Формальный контекст, формальное понятие, частичный порядок на формальных понятиях, решетка формальных понятий. Супремум и инфимум-неразложимые элементы решетки. Основная теорема АФП (Р. Вилле). Характеризация решеток через бинарное отношение. Отношение «стрелка». Характеризация дистрибутивных решеток через отношения «стрелок». Многозначные контексты, шкалирование.
Системы импликаций, правила Армстронга, связь с функциональными зависимостями. Базисы импликаций. Псевдосодержания: определения Дюкенна-Гига и Гантера. Характеризация типов решеток по виду импликаций в минимальном базисе. Размеры базисов.
Ассоциативные правила в разработке данных (Data mining), их поддержка и степень уверенность. Ассоциативные правила и решетки формальных понятий. Базис Люксенбургера для ассоциативных правил. Базис, основанный на остовном дереве диаграммы решетки понятий.
Основная литература
1. Ganter B. and Wille R., Formal Concept Analysis: Mathematical Foundations, Springer, 1999.
Тема 9. Модели машинного обучения и решетки понятий. Пространство версий через соответствия Галуа. Пространства версий с полурешеточным упорядочением классификаторов. ДСМ-метод порождения гипотез, гипотезы как содержания решетки понятий положительного контекста. Импликации и ДСМ-гипотезы. Гипотезы и пространства версий. Деревья решений и их погружение в решетку полупроизведения шкал. Узорные структуры и их проекции, обучение на узорных структурах. Импликации и ассоциативные правила на узорных структурах.
Основная литература
1. Mitchell T., Machine Learning, 1997.
2. Кузнецов С.О. Автоматическое обучение на основе анализа формальных понятий // Автоматика и телемеханика. 2001. - N 10. - с.3-27.
Тематика заданий по различным формам текущего контроля:
1.Биномиальный критерий
2.Определение объема репрезентативной выборки
3.Исследование однородности двух совокупностей
4.Исследование влияния фактора на конечный результат
5.Исследование влияния главного фактора при наличии мешающего фактора
6.Выявление зависимостей у номинальных признаков
7.Выявление зависимостей у порядковых переменных
8.Анализ структуры и тесноты связи количественных переменных
9.Соотношение между графовым и табличным заданием отношений
10.Соотношение между заданием частичных порядков с помощью графов, диаграмм и таблиц.
Вариант домашней работы
1.Из 635 зафиксированных отделом ГАИ ДТП 132 произошло по вине водителей-женщин. Учитывая, что по статистике доля женщин за рулём составляет 30% от общего числа водителей, можно ли считать, что женщины водят аккуратнее мужчин?
2.Средняя стоимость лечения одного пациента-льготника с диагнозом «дуоденит» составляет (в рублях на ноябрь 2007 года):
Дальневосточный фед. округ
|
Приволжский фед. округ
|
Амурская обл. 245,61
|
Кировская обл. 196,27
|
Еврейская АО 101,45
|
Оренбургская обл. 309,79
|
Камчатская обл. 202,84
|
Пензенская обл. 271,76
|
Корякский АО 327,63
|
Пермская обл. 329,58
|
Магаданская обл. 144,5
|
Башкортостан 233,49
|
Приморский край 458,81
|
Марий-Эл 298,24
|
|
Мордовия 311,6
|
|
Татарстан 284,03
|
|
Чувашия 405,5
|
Одинакова ли средняя стоимость лечения льготников в Дальневосточном и Приволжском федеральных округах?
3.Проведен социологический опрос 655 человек. Каждый из опрошенных отвечал на два вопроса. Вопрос А: «Удовлетворены ли Вы своим образом жизни?» (варианты ответов: да, нет). Вопрос В: «Каково Ваше материальное положение?» (варианты ответов: плохое, ниже среднего, среднее, выше среднего, хорошее. Результаты опроса сведены в следующую таблицу:
B
A
|
плохое
|
ниже среднего
|
среднее
|
выше среднего
|
хорошее
|
Нет
|
92
|
64
|
48
|
23
|
3
|
Да
|
22
|
46
|
136
|
148
|
72
|
Имеется ли зависимость между материальным положением (признак В) и удовлетворенностью образом жизни (признак А) ?
Прокомментируйте характер связи между А и В с помощью коэффициентов Пирсона, Крамера, среднеквадратической сопряженности, мер прогноза Гутмана, мер прогноза Краскела-Гудмана.
4. В таблице представлены данные за 1997 год показателей X (индекс человеческого развития) и Y (суточная калорийность питания населения, ккал на душу) для следующих стран: Австрия, Аргентина, Великобритания, Германия, Египет, Норвегия, Украина, Республика Корея, ЮАР, США.
X
|
0.904
|
0.827
|
0.918
|
0.906
|
0.616
|
0.927
|
0.721
|
0.852
|
0.695
|
0.927
|
Y
|
3343
|
3136
|
3237
|
3330
|
3289
|
3350
|
2753
|
3336
|
2933
|
3642
|
Являются ли показатели X и Y зависимыми?
Вопросы для оценки качества освоения дисциплины
Тема 1.
1. Что такое статистическая гипотеза?
2. В чем состоят ошибки I и II рода?
3. Дайте определение функции мощности статистического критерия.
4. Дайте определение квантили. Чему равна 0,05-квантиль стандартного гауссовского распределения, если 0,95-квантиль этого распределения равна 1,65?
5.Каков порядок проверки параметрических статистических гипотез?
6.Опишите задачу, которая решается с помощью биномиального критерия.
7. Какую выборку называют репрезентативной?
Тема 2.
1. Какие выборки называют однородными?
2. Назовите основные типы неоднородности выборок.
3. Опишите условия применимости классических и ранговых критериев для проверки гипотезы об однородности.
4. Какие преимущества и какие недостатки имеют ранговые критерии по сравнению с классическими?
5. Какие критерии применяют для проверки гипотезы об однородности двух выборок?
6. Что такое относительная эффективность по Питмену?
7. Чему равна АОЭ по Питмену критерия Стьюдента по отношению к критерию Вилкоксона, если наблюдения имеют гауссовское распределение?
Тема 3.
1. Назовите основные термины дисперсионного анализа.
2. В чем состоит задача однофакторного дисперсионного анализа?
3. В чем состоит задача двухфакторного дисперсионного анализа?
4. Опишите условия применимости классических и ранговых критериев в задачах однофакторного дисперсионного анализа.
5. Как построить доверительный интервал контраста в задаче однофакторного анализа для гауссовских наблюдений?
6. В каких ситуациях следует применять критерий Джонкхиера и критерий Пейджа?
Тема 4.
1. Опишите основные типы шкал измерений и допустимые преобразования в этих шкалах.
2. Что такое таблица сопряженности признаков?
3. Дайте определение независимости признаков, измеряемых в номинальной шкале.
4. Как проверить гипотезу о независимости признаков в номинальной шкале?
5. Как проверить гипотезу о независимости признаков в порядковой шкале?
6. Назовите основные коэффициенты, измеряющие связь признаков в номинальной шкале.
7. Что такое коэффициент корреляции? Каковы его основные свойства?
8. Как проверить гипотезу о некоррелированности признаков?
9. В каком случае проверка некоррелированности наблюдений эквивалентна проверке независимости?
10. Как измерить тесноту связи двух нелинейно зависимых переменных?
11. Что такое множественный коэффициент корреляции? Каковы его свойства?
Тема 5.
1. В чем состоит задача линейной регрессии?
2. В чем состоит идея метода наименьших квадратов (МНК)?
3. Какие методы оценивания параметров регрессии вам известны?
4. Какими свойствами обладает МНК-оценка параметров регрессии?
Тема 6.
1. Опишите модель факторного анализа.
2. Что такое матрица нагрузок?
3. Как можно определить количество общих факторов?
4. Какова цель вращения факторного пространства?
5. В чем состоит геометрическая интерпретация метода главных компонент?
Тема 7.
1.Как можно вычислять расстояние между объектами?
2. Определите способы измерения расстояний между кластерами.
3. Применяются ли иерархические и параллельные кластер-процедуры при решение задач с большими объемами наблюдений?
4.В чем состоит идея метода К-средних?
Тема 8.
1. Для контекста, представленного таблицей
|
A
|
b
|
с
|
D
|
1
|
|
x
|
x
|
X
|
2
|
X
|
|
x
|
X
|
3
|
X
|
x
|
|
X
|
4
|
X
|
x
|
|
|
5
|
|
|
x
|
X
|
построить множество всех понятий, диаграмму решетки понятий
2. Для решетки, представленной следующей диаграммой:
а) определить множества - и -неразложимых элементов J(V) и M(V);
б) составив контекст (J(V), M(V), ), где - отношение частичного порядка в решетке, построить его решетку понятий;
в) указать (стрелками) отображение, устанавливающее соответствие между исходной решеткой и полученной решеткой понятий.
3. Как выражены признаковые импликации на диаграмме решетки понятий?
4. Для контекста, представленного таблицей
|
a
|
b
|
c
|
d
|
1
|
x
|
x
|
x
|
|
2
|
|
x
|
x
|
|
3
|
x
|
|
|
|
4
|
|
|
x
|
|
а) построить решетку понятий;
б) определить (объяснив ответ), имеют ли место признаковые импликации ac b, cb a, bd c;
в) привести еще, как минимум, три нетривиальные импликации, выполняющиеся в контексте (импликация A B называется тривиальной если B A).
5. Для множества импликаций a b, b cd, d e
построить контекст с множеством признаков {a,b,c,d,e}, в котором выполняются только эти импликации (и те, которые следуют по ним по правилам Армстронга).
6. По контексту, представленному таблицей
|
a
|
b
|
c
|
d
|
1
|
x
|
x
|
x
|
|
2
|
|
x
|
x
|
|
3
|
x
|
|
|
|
4
|
|
|
x
|
|
построить многозначный контекст, для которого множество функциональных зависимостей синтаксически совпадает с множеством импликаций в исходном контексте, с использованием всех значений из множества натуральных чисел от 1 до 7.
7. Каков размер минимального базиса ассоциативных правил?
8. Как построить минимальный базис ассоциативных правил по диаграмме решетки понятий?
9. Для контекста, представленного таблицей
|
a
|
b
|
с
|
d
|
1
|
|
x
|
x
|
x
|
2
|
x
|
|
x
|
x
|
3
|
x
|
x
|
|
x
|
4
|
x
|
x
|
|
|
5
|
|
|
x
|
x
|
построить множество ассоциативных правил вида X Y, удовлетворяющих свойству conf ½, X, Y M, X – минимальный генератор, Y – замкнутое множество признаков.
Тема 9.
1. Каков размер минимального базиса ассоциативных правил?
2. Как построить минимальный базис ассоциативных правил по диаграмме решетки понятий?
3. Для контекста, представленного таблицей
|
a
|
b
|
с
|
d
|
1
|
|
x
|
x
|
x
|
2
|
x
|
|
x
|
x
|
3
|
x
|
x
|
|
x
|
4
|
x
|
x
|
|
|
5
|
|
|
x
|
x
|
построить множество ассоциативных правил вида X Y, удовлетворяющих свойству conf ½, X, Y M, X – минимальный генератор, Y – замкнутое множество признаков.
4. Можно ли найти все гипотезы для данных, представленных помеченными графами, с помощью алгоритма, имеющего в худшем случае временную сложность O(exp{(|E|+|V|)n}), где |E| - максимальное число ребер, а |V| - максимальное число вершин в графе из обучающей выборки размера n?
5. Сохраняет ли оператор проекции операцию пересечения?
Вариант билета контрольной работы №1.
1.В случайной выборке из 388 мужчин Северного региона, полностью занятых в промышленном производстве, выборочное среднее еженедельных заработков составило 22,52 ₤, выборочная дисперсия − 36 ₤2. Известно, что средний заработок всех мужчин, полностью занятых в промышленном производстве, равен 24,44 ₤. Свидетельствуют ли эти данные о том, что средний заработок мужчин Северного региона, полностью занятых в промышленном производстве, ниже, чем в целом по стране?
2.Уровень гистамина в мокроте у 7 курильщиков, склонных к аллергии, составил (в микрограммах): 102,4; 100,0; 67,6; 65,9; 64,7; 39,6; 31,2, а у курильщиков, несклонных к аллергии: 48,1; 45,5; 41,7; 35,4; 29,1; 18,9; 58,3; 66,8; 71,3; 94,3. Верно ли предположение о том, что уровень гистамина у курильщиков, подверженных аллергии, выше, чем у неаллергенов? Принять уровень значимости равным 0,05.
3.В городскую администрацию поступила просьба о переносе автобусной остановки. Сколько жителей микрорайона надо опросить, чтобы с точностью до 0,03 оценить долю людей, считающих перенос остановки целесообразным? Результат должен быть гарантирован на уровне доверия 0,95. Известно, что в данном микрорайоне проживает 4000 человек.
4.Три группы случайно отобранных людей обучались навыкам скорочтения тремя разными методами. В конце обучения проводился зачет, на котором оценивалась скорость чтения. Обучающиеся показали следующие результаты (страниц за 10 минут). Первая группа: 20, 23,24, 24,25,26, 28, 30, 31, 32. Вторая группа: 38, 42, 42, 44, 47, 48, 49, 50, 51, 52. Третья группа: 29, 32, 33, 35, 35, 37, 38, 39, 40, 42. Можно ли считать на уровне значимости 0,05, что предлагаемые методы обучения имеют различную эффективность?
Вариант билета контрольной работы №2.
1. Для многозначного контекста
A
|
1
|
|
да
|
+
|
A
|
2
|
|
нет
|
+
|
B
|
3
|
|
да
|
+
|
C
|
5
|
|
нет
|
+
|
B
|
3
|
|
да
|
-
|
B
|
5
|
|
да
|
-
|
C
|
4
|
|
нет
|
-
|
C
|
4
|
|
нет
|
-
|
провести номинальное шкалирование первого и третьего признаков, порядковое шкалирование второго признака (со значениями порядковой шкалы 2 , 3, 4)
|
2
|
3
|
4
|
1
|
Х
|
х
|
Х
|
2
|
Х
|
х
|
Х
|
3
|
|
х
|
Х
|
4
|
|
|
Х
|
5
|
|
|
|
и дихотомическое шкалирование 4-го и 5-го признаков.
2. По многозначному контексту
|
a
|
b
|
c
|
d
|
1
|
r
|
s
|
t
|
t
|
2
|
s
|
r
|
t
|
t
|
3
|
s
|
r
|
s
|
s
|
4
|
t
|
t
|
r
|
r
|
построить бинарный контекст, в котором импликации синтаксически совпадают с функциональными зависимостями в исходном многозначном контексте.
3. С помощью процедуры Attribute Exploration построить минимальный базис импликаций
|
a
|
b
|
с
|
d
|
1
|
x
|
|
x
|
x
|
2
|
x
|
|
|
x
|
3
|
x
|
x
|
|
x
|
4
|
x
|
x
|
x
|
|
5
|
|
x
|
x
|
x
|
считая, что "дополнительные знания" эксперта выражаются с помощью контекста
|
a
|
b
|
с
|
d
|
1
|
|
|
x
|
x
|
2
|
x
|
|
|
x
|
3
|
x
|
x
|
|
x
|
4. С помощью процедуры Attribute Exploration построить минимальный базис импликаций
|
a
|
b
|
с
|
d
|
1
|
x
|
|
x
|
x
|
2
|
x
|
|
|
x
|
3
|
x
|
x
|
|
x
|
4
|
x
|
x
|
x
|
|
5
|
|
x
|
x
|
x
|
считая, что "дополнительные знания" эксперта выражаются с помощью контекста
|
a
|
b
|
с
|
d
|
1
|
|
|
x
|
x
|
2
|
x
|
|
|
x
|
3
|
x
|
x
|
|
x
|
Вариант экзаменационного билета
1.В результате проведенного исследования было установлено, что у 309 светлоглазых мужчин жены также имеют светлые газа, а у 214 светлоглазых мужчин жены темноглазые. У 119 темноглазых мужчин жены также темноглазые, а у 132 темноглазых мужчин жены светлоглазые. Имеется ли зависимость между цветом глаз мужей и их жен? Исследуйте силу связи между этими показателями с помощью коэффициентов контингенции и ассоциации.
2. По 20 территориям России были изучены следующие данные: X – среднедушевой доход (в тыс. руб.), Y – доля занятых тяжелым физическим трудом в общей численности занятых (%), Z – доля экономически активного населения в численности всего населения (%). По результатам наблюдений были вычислены выборочные коэффициенты корреляции. Для показателей X и Y выборочный коэффициент корреляции равен 0.746, для X и Z равен 0.507, для Y и Z равен 0.432. Вычислите частный коэффициент корреляции показателей X и Y при условии, что показатель Z зафиксирован.
3.Три квалифицированных эксперта (A,B и C) оценивают в порядке предпочтения 10 бизнес-проектов. Результаты представлены в таблице:
A
|
1
|
4
|
2
|
5
|
3
|
7
|
6
|
9
|
8
|
10
|
B
|
2
|
1
|
3
|
4
|
5
|
8
|
9
|
10
|
6
|
7
|
C
|
2
|
1
|
4
|
5
|
3
|
7
|
9
|
8
|
6
|
10
|
Является ли эта экспертная группа согласованной?
4. В таблице представлены данные за 1995 год показателей X (ВВП в паритетах покупательной способности) и Y (коэффициент детской смертности в %) для следующих стран: Бурунди, Чад, Индия, Египет, Мексика, Бразилия, Республика Корея, Канада, США, Швейцария.
X
|
2.3
|
2.6
|
5.2
|
12.2
|
23.7
|
20
|
42.4
|
78.3
|
100
|
95.9
|
Y
|
98
|
117
|
68
|
16
|
33
|
44
|
10
|
6
|
8
|
6
|
Считая , что наблюдения имеют гауссовское распределение, выясните являются ли признаки X и Y зависимыми и постройте приближенный доверительный интервал уровня надежности 0.95 для коэффициента корреляции X и Y.
5. Какие преимущества и какие недостатки имеют ранговые критерии по сравнению с классическими ?
Авторы программы: _____________________________/ С.О. Кузнецов/
_____________________________/Е.Р. Горяинова/
Достарыңызбен бөлісу: |