y=b0x0+b1x1.
0
1
1
1
2
1
0 = b0*1+b1*(–2),
b0
1 = b0*1+b1*(–1),
Y 2
X 1 0
B b
2 = b
*1+b
*0,
3
1
1
1 0 1
3 = b0*1+b1*(+1),
4
1
2
4 = b0*1+b1*(+2).
Наша регрессионная модель может быть записана в матричном виде:
0 = b0*1+b1*(–2),
0
1
1
1
2
1
1 = b0*1+b1*(–1),
b0
2 = b0*1+b1*0,
2 1
0 * b
Y=XB
3 = b0*1+b1*(+1),
3 1
1 1
4 = b0*1+b1*(+2).
4
1
2
Определение обратной матрицы: Обратная матрица — такая матрица A−1, при умножении на которую, исходная матрица A даёт в результате единичную матрицу E:
Элементы матричного анализа и регрессионный анализ
YX−1 =XX−1 B YX−1 =B
XX−1 =1
Таким образом, мы получим в явной форме набор уравнений на компоненты вектора B, то есть наше искомое решение регрессионной задачи.
y1
x01
x11
xk1
1
b0
y2
x02
x12
xk 2 1
b
.
1N
kN
bk
N
0 N
y x
x x
Смысл коэффициента регрессии
В общем случае коэффициент регрессии k показывает, как в среднем изменится результативный признак ( Y ), если факторный признак ( X ) увеличится на единицу . Y = 87610 + 2984 X ; X – число рабочих, Y – объем годового производства (руб.).
Пример интерпретации коэффициента регрессии
В уравнении Y = 87610 + 2984 X ; коэффициент регрессии равен +2984. Что это означает?
В данном случае смысл коэффициента регрессии состоит в том, что увеличение числа
рабочих на 1 чел. приводит в среднем к увеличению объема годового производства
на 2984 руб.
Свойства коэффициента регрессии
Коэффициент регрессии может принимать любые значения.
Коэффициент регрессии не симметричен , т.е. изменяется, если X и Y поменять местами.
Единицей измерения коэффициента регрессии является отношение единицы измерения Y к единице измерения X : ([ Y ] / [ X ]).
Коэффициент регрессии изменяется при изменении единиц измерения X и Y .
Поскольку результативный признак Y измеряется в рублях, а факторный признак X в
количестве рабочих (чел.), то коэффициент регрессии измеряется
в рублях на человека (руб. / чел.)
Расчет линейной регрессии в Экселе
Пакет ‘Анализ данных’
Исходные данные
В рамках данного примера, в качестве зависимой переменной (Y) возьмем переменную ‘население’, в качестве независимых переменных (X) будем использовать все остальные переменные.
Население=A0+a1*плотн. + A2*сред. мес. зароб + A3*преступ. + A4*образ учрежд.
Параметры регрессии
Входной интервал Y – данные в колонке ‘население’.
Входной интервал X – все остальные данные.
R2 - коэффициент детерминации, показывающий что на 74,5% расчетные параметры модели, то есть сама модель, объясняют зависимость и изменения изучаемого параметра - Y от исследуемых факторов - X. Можно сказать что, это показатель качества модели и чем он выше тем лучше. Понятное дело, что он не может быть больше 1 и считается неплохо, когда R2выше 0,8, а если меньше 0,5, то смысл такой модели можно смело ставить под большой вопрос.
Анализ результатов
Y пересечение - коэффициент который показывает какой будет Y в случае, если все используемые в модели факторы будут равны 0, подразумевается что это зависимость от других неописанных в модели факторов;
В данной модели использованы четыре переменных, соответственно, зеленным цветом выделены 4 коэффициента, которые характеризуют степень влияния независимых переменных на зависимую переменную Y.
A0 = -3375.125239
A1 = 0.665945913
A2 = 0.665945913
A3 = -80.87652333
Анализ результатов
Предсказанное Y – величины, которые получились в результате предсказания.
Остатки – это разница между реальными данными и предсказанными, то есть
Остатки=Y – Y(пред)
Коэффициент детерминации R 2
Коэффициент детерминации рассматривают, как правило, в качестве основного показателя, отражающего меру качества регрессионной модели, описывающей связь между зависимой и независимыми переменными модели. Коэффициент детерминации показывает, какая доля вариации объясняемой переменной y учтена в модели и обусловлена влиянием на нее факторов, включенных в модель:
где – значения наблюдаемой переменной, – среднее
значение по наблюдаемым данным, – модельные значения, построенные по оцененным параметрам.
Достоинства
Достоинства и недостатки регрессионных моделей
Простота вычислительных алгоритмов.
Наглядность и интерпретируемость результатов (для линейной модели).
Недостатки
1. Невысокая точность прогноза
(в основном - интерполяция данных).
Субъективный характер выбора вида конкретной зависимости (формальная подгонка модели под эмпирический материал).
Отсутствие объяснительной функции (невозможность объяснения причинно-следственной связи).
Достарыңызбен бөлісу: |