“Young Scientist”
. # 52 (342)
. December 2020
41
Information Technology
Статистический анализ данного файла показывает, что ос-
новную информацию
о выборке можно получить, используя
функцию «summary» языка R. Эта функция сообщает мини-
мальное и максимальное значения, медиану, среднее, первый,
и третий квартиль задаваемого параметра (табл. 1).
Таблица
1.
Статистический анализ файла
Столбец
Min.
1
st
Qu.
Median
Mean
3
rd
Qu.
Max
NA’s
Teaching
10.70
26.25
34.90
38.79
46.80
96.30
-
International
12.70
35.75
53.00
53.49
69.40
98.90
-
Research
6.50
21.90
32.10
37.35
47.40
99.40
-
Сitations
3.10
50.20
64.20
64.39
79.60
100.00
-
Income
24.20
34.10
41.90
49.81
60.40
100.00
122
Total_score
41.40
49.20
54.60
59.03
65.60
95.50
802
Year
2012
2012
2013
2013
2014
2015
-
Ниже приведен пример программы, которая строит модель
зависимости по заданной выборке и показывает результат на
графике. Для заданного множества из m пар (x
i
, y
i
), i=1, …, m,
значений свободной и зависимой
переменной требуется по-
строить зависимость. Эта зависимость представлена в виде ли-
нейной регрессии:
(
)
,
,
i
i
i
y
f
x
=
ω
+ε
(1)
где
ε
— аддитивная случайная величина;
x, y — переменные (принимают значения на числовой
прямой R).
Предполагается, что случайная величина распределена нор-
мально с нулевым мат. ожиданием и фиксированной диспер-
сией
2
ε
σ
, которая не
зависит от переменных x, y. При таких
предположениях параметры
ω
регрессионной модели вычис-
ляются с помощью метода наименьших квадратов [4].
Одномерная регрессия определяется как:
1
2
.
i
i
i
y
x
=ω + ω
+ ε
(2)
Основываясь на этом, построим модель, которая позволяла
бы предсказывать рейтинг университета на основе его показа-
телей. Результат программы представлен на рис. 2.
Из результата
работы программы видно, что коэффициент
детерминации R-squared равен 1. Данный показатель указывает
на то, что связь между факторами регрессии и зависимой пе-
ременной является очень тесной.
Значение скорректирован-
ного коэффициента детерминации Adjusted R-squared равно
1, значит зависимость является ярко выраженной. Значение
параметра F-statistic, равное 2.247е
+07
,
говорит о высокой зна-
чимости модели. Если критерий t-value, больше 2, то фактор яв-
ляется значимым для модели. Соответственно,
для рассматри-
ваемой модели все факторы являются значимыми.
Вероятность истинности нуль гипотезы p-value, которая
гласит, что независимые переменные не объясняют дина-
Рис.
Достарыңызбен бөлісу: