21. Проверка значимости коэффициента корреляции, коэффициентов и уравнения линейной регрессии. Доверительные интервалы



бет4/7
Дата18.01.2024
өлшемі200.05 Kb.
#489287
түріУрок
1   2   3   4   5   6   7
матстатистика 21

Примечание: если Пример 67 решён 1-м способом, то квадраты  и их сумма  уже найдены и в этом случае 3-й столбец не нужен. Он также не потребуется, если вам нужно проверить лишь коэффициент «а» (при факторной переменной «икс»).
В 4-м слева столбце с помощью выборочного уравнения регрессии рассчитываем среднеожидаемую успеваемость студентов для эмпирических значений  . Так, при количестве прогулов  среднеожидаемая успеваемость составит  . И, наконец, в правом столбце находим квадраты отклонений  эмпирических значений  успеваемости от соответствующих среднеожидаемых значений , вычисленных по уравнению регрессии. Например:  . О том, как быстро проводить подобные вычисления в Экселе, я неоднократно рассказывал ранее, посмотрИте хотя бы недавний ролик.
Теперь проверка, выберем тот же уровень значимости  . Рассмотрим нулевую гипотезу  – о том, что соответствующий коэффициент генерального уравнения  равен нулю. По сути это означает отсутствие линейной корреляционной зависимости между показателями.
И здесь тоже используется категоричная альтернатива  – гипотеза о том, что линейная корреляционная зависимость успеваемости от количества прогулов существует. Вновь обратите внимание, что направление гипотетической зависимости (прямая или обратная) не принимается во внимание, проверяется лишь тот факт – есть она или нет.
Для проверки гипотезы  на уровне значимости  используем статистический критерий  , где  – выборочное значение коэффициента, а  – стандартная ошибка коэффициента «а». Случайная величина  имеет распределение Стьюдента с количеством степеней свободы  , где  – количество оцениваемых параметров. Параметр у нас один (коэффициент «а»), поэтому  .
Для уровня значимости  и количества степеней свободы  по соответствующей таблице либо с помощью Экселя (пункт 10в) находим критическое значение двусторонней области  .
Если наблюдаемое значение критерия окажется в «красной» области ( либо  ), то нулевая гипотеза отвергается в пользу альтернативной; если же  , то оснований отвергать её на данном уровне значимости – нет.

Наблюдаемое значение критерия найдём по формуле:

Выборочный коэффициент известен  , а вот с его стандартной ошибкой придётся потрудиться:
, где  – среднее квадратическое отклонение признака-фактора (найдено в Примере 67), а «эс етое» – стандартная ошибка регрессии, которая отыскивается по формуле:
(сумма в числителе рассчитана в таблице выше).
В результате:
и наблюдаемое значение критерия:
, таким образом, на уровне значимости  гипотезу  отвергаем в пользу гипотезы  .
Иными словами, выборочное значение  оказалось статически значимым и вряд ли объяснимо случайными факторами, малой выборкой, например.
И внимательный читатель заметил, что здесь мы получили те же самые значения  и  , что и в первом пункте! То есть, проверка значимости коэффициента при факторной переменной («икс») эквивалентна проверке значимости коэффициента корреляции. Что неудивительно, ведь оба коэффициента характеризуют линейную корреляционную зависимость, да вспОмните хотя бы формулу  , в которой одно связано с другим.
Таким образом, если проверен один коэффициент, то фактически проверен и другой. Впрочем, в вашей задаче может требоваться и то и другое. И третье, и четвёртое, и пятое :)
Следует добавить, что в некоторых задачах в качестве нулевой гипотезы выдвигают  , где  – ненулевое значение. В этом случае наблюдаемое значение критерия рассчитывается по формуле  , а в остальном решение будет таким же.
Но это ещё не всё. Проверим значимость коэффициента  . Давайте, кстати, посмотрим на уравнение  и вспомним смысл этого коэффициента: если студент не прогулял ни одного занятия  , то  – есть в точности среднеожидаемая успеваемость такого монстра :)
В качестве нулевой гипотезы рассматриваем совсем уж невероятный случай  о равенстве нулю коэффициента генерального уравнения  (этакий факультет эльфов, которые посещают все занятия, но никто вообще ничего не понимает :)).
В качестве альтернативной гипотезы рассмотрим  – о том, что не все из них эльфы.
Решение будет «под кальку». Для проверки гипотезы  на уровне значимости  используем статистический критерий  , где  – выборочное значение коэффициента, а  – его стандартная ошибка. Эта случайная величина имеет то же распределение Стьюдента с количеством степеней свободы  , и для уровня значимости  мы определили  .
Знакомая картинка с областью отвержения (красный цвет) и областью принятия нулевой гипотезы:

Вычислим стандартную ошибку коэффициента «бэ» (сумма квадратов найдена в таблице выше):
, как вариант, её можно рассчитать через стандартную ошибку коэффициента «а»:
, что несколько проще.
Вычислим наблюдаемое значение критерия:
, таким образом, на уровне значимости  гипотезу  отвергаем в пользу гипотезы  .
То есть, выборочное значение  статически значимо отличается от нуля, что естественно.
В некоторых задачах рассматривают нулевую гипотезу  , где  , и тогда наблюдаемое значение критерия рассчитывается по формуле  .
4) Найдём доверительные интервалы для генеральных коэффициентов  и  . Это просто. Но оценка получится очень грубой, в частности потому, что выборка весьма малА.
Для первого коэффициента используем формулу:

Всё найдено в предыдущем пункте, осталось провести простецкие вычисления:

– таким образом, с доверительной вероятностью данный интервал накроет истинное значение генерального коэффициента  .
И аналогичная формула для второго коэффициента:

– таким образом, с доверительной вероятностью данный интервал накроет истинное значение генерального коэффициента 
5) Проверим статистическую значимость всего выборочного уравнения  – можно ли с высокой степенью доверять этому результату или он далёк от генерального уравнения  ? …Ну, после пунктов 1 и 3 доверять, очевидно, можно :) Но проблема состоит в том, что в разных задачах вам могут быть предложены разные пункты, и поэтому я разбираю каждый из них.
На самом деле поставленный вопрос эквивалентен вопросу о проверке значимости выборочного коэффициента детерминации  , который мы, естественно, тоже рассчитали в Примере 67. «Естественно», потому что  – есть ключевой показатель. А именно, в рамках построенной линейной модели успеваемость на 51,74% зависит от количества прогулов. Оставшаяся часть вариации успеваемости (48,26%) обусловлена другими причинами, которые не учитываются уравнением  . В статье об индексе детерминации и корреляции я подробно обосную вышесказанное, ну а пока возвращаемся к делам нашим практическим.
Поскольку  , то проверка должна быть эквивалентна проверке значимости коэффициента корреляции (пункт 1). И это действительно так. Проверим гипотезу:
– о том, что генеральный коэффициент детерминации равен нулю, иными словами количество прогулов вообще никак (на 0%) не влияет на успеваемость.
В качестве конкурирующей гипотезы рассмотрим логичное противопоставление  – о том, что такое влияние есть.
Для проверки гипотезы используем статистический критерий  , где  – значение выборочного коэффициента детерминации (которое от исследования к исследованию случайно), а  – количество факторных (причинных) переменных. В нашей модели фактор один (успеваемость)  , а посему критерий принимает вид  . Эта случайная величина имеет распределение Фишера ( -распределение) с количеством степеней свободы  .
Для того же уровня значимости  и количества степеней свободы  по соответствующей таблице или с помощью расчётного макета (пункт 12) определяем критическое значение критерия
Теперь вычислим наблюдаемое значение критерия. Если окажется что  (красный штрих) то гипотезу  на уровне значимости  отвергаем; если же  , то отвергать её – оснований нет:

В нашей задаче:
, таким образом, на уровне значимости  гипотезу  отвергаем в пользу конкурирующей гипотезы  .
Иными словами, выборочное значение  статистически значимо отлично от нуля, а значит, статистически значимо и выборочное уравнение  . Однако «статистически значимо» – это ещё не значит, что «отлично» или хотя бы «хорошо». Так, и оценки «троечника» ведь статистически значимо отличны от нуля :)
Вполне может статься, что зависимость близкА и к какой-нибудь нелинейной – если эмпирические точки располагаются примерно по параболе, гиперболе, экспоненте или вдоль какой-нибудь другой кривой. В этом случае мы получим низкое значение линейного коэффициента детерминации и его статическую незначимость, а значит, и незначимость всей линейной модели. То есть, линейная модель будет неудовлетворительно описывать ситуацию. Подбор оптимальной кривой и нелинейные модели…– уже на ваших экранах!
Возвращаясь к взаимосвязи коэффициентов  легко убедиться в том, что  – есть в точности критическое значение двусторонней области пункта 1, а  – есть в точности наблюдаемое значение того пункта.
Таким образом, для линейной однофакторной модели эквивалентными являются следующие проверки:
– проверка значимости коэффициента корреляции;
– проверка значимости коэффициента факторной переменной уравнения регрессии;
– проверка значимость коэффициента детерминации.
И если проверено что-то одно, то по существу, проверено и второе и третье. Но, повторюсь, в вашей задаче вас могут заставить «пропахать» все три пункта.
И в заключение параграфа хочу добавить, что рассмотренный критерий Фишера работает и в многофакторных линейных моделях. ...Я, наконец, добрался до двухфакторной модели :) …на 13-й год развития сайта.
И на десерт:
6) Точечный прогноз и доверительный интервал прогноза.
Для чего нужно полученное уравнение  ? Ну, конечно же, хочется что-нибудь спрогнозировать. Оценим суммарную успеваемость  при  прогулах:
баллов.
Но это лишь точечный прогноз, вычисленный к тому же по выборочному уравнению. А ведь существует генеральное уравнение регрессии  и, следовательно, генеральное прогнозируемое значение успеваемости  при  . И наша задача состоит в том, чтобы найти доверительный интервал:
– который с заранее заданной доверительной вероятностью  (например) накроет истинное значение  .
Используем формулу  , где  – коэффициент доверия, а  – стандартная ошибка точечного прогноза.
Для уровня доверительной вероятности  и количества степеней свободы  находим коэффициент доверия  (Макет, пункт 10б).


Достарыңызбен бөлісу:
1   2   3   4   5   6   7




©dereksiz.org 2024
әкімшілігінің қараңыз

    Басты бет