Примечание: если Пример 67 решён 1-м способом, то квадраты и их сумма уже найдены и в этом случае 3-й столбец не нужен. Он также не потребуется, если вам нужно проверить лишь коэффициент «а» (при факторной переменной «икс»).
В 4-м слева столбце с помощью выборочного уравнения регрессии рассчитываем среднеожидаемую успеваемость студентов для эмпирических значений . Так, при количестве прогулов среднеожидаемая успеваемость составит . И, наконец, в правом столбце находим квадраты отклонений эмпирических значений успеваемости от соответствующих среднеожидаемых значений , вычисленных по уравнению регрессии. Например: . О том, как быстро проводить подобные вычисления в Экселе, я неоднократно рассказывал ранее, посмотрИте хотя бы недавний ролик.
Теперь проверка, выберем тот же уровень значимости . Рассмотрим нулевую гипотезу – о том, что соответствующий коэффициент генерального уравнения равен нулю. По сути это означает отсутствие линейной корреляционной зависимости между показателями.
И здесь тоже используется категоричная альтернатива – гипотеза о том, что линейная корреляционная зависимость успеваемости от количества прогулов существует. Вновь обратите внимание, что направление гипотетической зависимости (прямая или обратная) не принимается во внимание, проверяется лишь тот факт – есть она или нет.
Для проверки гипотезы на уровне значимости используем статистический критерий , где – выборочное значение коэффициента, а – стандартная ошибка коэффициента «а». Случайная величина имеет распределение Стьюдента с количеством степеней свободы , где – количество оцениваемых параметров. Параметр у нас один (коэффициент «а»), поэтому .
Для уровня значимости и количества степеней свободы по соответствующей таблице либо с помощью Экселя (пункт 10в) находим критическое значение двусторонней области .
Если наблюдаемое значение критерия окажется в «красной» области ( либо ), то нулевая гипотеза отвергается в пользу альтернативной; если же , то оснований отвергать её на данном уровне значимости – нет.
Наблюдаемое значение критерия найдём по формуле:
Выборочный коэффициент известен , а вот с его стандартной ошибкой придётся потрудиться:
, где – среднее квадратическое отклонение признака-фактора (найдено в Примере 67), а «эс етое» – стандартная ошибка регрессии, которая отыскивается по формуле:
(сумма в числителе рассчитана в таблице выше).
В результате:
и наблюдаемое значение критерия:
, таким образом, на уровне значимости гипотезу отвергаем в пользу гипотезы .
Иными словами, выборочное значение оказалось статически значимым и вряд ли объяснимо случайными факторами, малой выборкой, например.
И внимательный читатель заметил, что здесь мы получили те же самые значения и , что и в первом пункте! То есть, проверка значимости коэффициента при факторной переменной («икс») эквивалентна проверке значимости коэффициента корреляции. Что неудивительно, ведь оба коэффициента характеризуют линейную корреляционную зависимость, да вспОмните хотя бы формулу , в которой одно связано с другим.
Таким образом, если проверен один коэффициент, то фактически проверен и другой. Впрочем, в вашей задаче может требоваться и то и другое. И третье, и четвёртое, и пятое :)
Следует добавить, что в некоторых задачах в качестве нулевой гипотезы выдвигают , где – ненулевое значение. В этом случае наблюдаемое значение критерия рассчитывается по формуле , а в остальном решение будет таким же.
Но это ещё не всё. Проверим значимость коэффициента . Давайте, кстати, посмотрим на уравнение и вспомним смысл этого коэффициента: если студент не прогулял ни одного занятия , то – есть в точности среднеожидаемая успеваемость такого монстра :)
В качестве нулевой гипотезы рассматриваем совсем уж невероятный случай о равенстве нулю коэффициента генерального уравнения (этакий факультет эльфов, которые посещают все занятия, но никто вообще ничего не понимает :)).
В качестве альтернативной гипотезы рассмотрим – о том, что не все из них эльфы.
Решение будет «под кальку». Для проверки гипотезы на уровне значимости используем статистический критерий , где – выборочное значение коэффициента, а – его стандартная ошибка. Эта случайная величина имеет то же распределение Стьюдента с количеством степеней свободы , и для уровня значимости мы определили .
Знакомая картинка с областью отвержения (красный цвет) и областью принятия нулевой гипотезы:
Вычислим стандартную ошибку коэффициента «бэ» (сумма квадратов найдена в таблице выше):
, как вариант, её можно рассчитать через стандартную ошибку коэффициента «а»:
, что несколько проще.
Вычислим наблюдаемое значение критерия:
, таким образом, на уровне значимости гипотезу отвергаем в пользу гипотезы .
То есть, выборочное значение статически значимо отличается от нуля, что естественно.
В некоторых задачах рассматривают нулевую гипотезу , где , и тогда наблюдаемое значение критерия рассчитывается по формуле .
4) Найдём доверительные интервалы для генеральных коэффициентов и . Это просто. Но оценка получится очень грубой, в частности потому, что выборка весьма малА.
Для первого коэффициента используем формулу:
Всё найдено в предыдущем пункте, осталось провести простецкие вычисления:
– таким образом, с доверительной вероятностью данный интервал накроет истинное значение генерального коэффициента .
И аналогичная формула для второго коэффициента:
– таким образом, с доверительной вероятностью данный интервал накроет истинное значение генерального коэффициента
5) Проверим статистическую значимость всего выборочного уравнения – можно ли с высокой степенью доверять этому результату или он далёк от генерального уравнения ? …Ну, после пунктов 1 и 3 доверять, очевидно, можно :) Но проблема состоит в том, что в разных задачах вам могут быть предложены разные пункты, и поэтому я разбираю каждый из них.
На самом деле поставленный вопрос эквивалентен вопросу о проверке значимости выборочного коэффициента детерминации , который мы, естественно, тоже рассчитали в Примере 67. «Естественно», потому что – есть ключевой показатель. А именно, в рамках построенной линейной модели успеваемость на 51,74% зависит от количества прогулов. Оставшаяся часть вариации успеваемости (48,26%) обусловлена другими причинами, которые не учитываются уравнением . В статье об индексе детерминации и корреляции я подробно обосную вышесказанное, ну а пока возвращаемся к делам нашим практическим.
Поскольку , то проверка должна быть эквивалентна проверке значимости коэффициента корреляции (пункт 1). И это действительно так. Проверим гипотезу:
– о том, что генеральный коэффициент детерминации равен нулю, иными словами количество прогулов вообще никак (на 0%) не влияет на успеваемость.
В качестве конкурирующей гипотезы рассмотрим логичное противопоставление – о том, что такое влияние есть.
Для проверки гипотезы используем статистический критерий , где – значение выборочного коэффициента детерминации (которое от исследования к исследованию случайно), а – количество факторных (причинных) переменных. В нашей модели фактор один (успеваемость) , а посему критерий принимает вид . Эта случайная величина имеет распределение Фишера ( -распределение) с количеством степеней свободы .
Для того же уровня значимости и количества степеней свободы по соответствующей таблице или с помощью расчётного макета (пункт 12) определяем критическое значение критерия:
Теперь вычислим наблюдаемое значение критерия. Если окажется что (красный штрих) то гипотезу на уровне значимости отвергаем; если же , то отвергать её – оснований нет:
В нашей задаче:
, таким образом, на уровне значимости гипотезу отвергаем в пользу конкурирующей гипотезы .
Иными словами, выборочное значение статистически значимо отлично от нуля, а значит, статистически значимо и выборочное уравнение . Однако «статистически значимо» – это ещё не значит, что «отлично» или хотя бы «хорошо». Так, и оценки «троечника» ведь статистически значимо отличны от нуля :)
Вполне может статься, что зависимость близкА и к какой-нибудь нелинейной – если эмпирические точки располагаются примерно по параболе, гиперболе, экспоненте или вдоль какой-нибудь другой кривой. В этом случае мы получим низкое значение линейного коэффициента детерминации и его статическую незначимость, а значит, и незначимость всей линейной модели. То есть, линейная модель будет неудовлетворительно описывать ситуацию. Подбор оптимальной кривой и нелинейные модели…– уже на ваших экранах!
Возвращаясь к взаимосвязи коэффициентов легко убедиться в том, что – есть в точности критическое значение двусторонней области пункта 1, а – есть в точности наблюдаемое значение того пункта.
Таким образом, для линейной однофакторной модели эквивалентными являются следующие проверки:
– проверка значимости коэффициента корреляции;
– проверка значимости коэффициента факторной переменной уравнения регрессии;
– проверка значимость коэффициента детерминации.
И если проверено что-то одно, то по существу, проверено и второе и третье. Но, повторюсь, в вашей задаче вас могут заставить «пропахать» все три пункта.
И в заключение параграфа хочу добавить, что рассмотренный критерий Фишера работает и в многофакторных линейных моделях. ...Я, наконец, добрался до двухфакторной модели :) …на 13-й год развития сайта.
И на десерт:
6) Точечный прогноз и доверительный интервал прогноза.
Для чего нужно полученное уравнение ? Ну, конечно же, хочется что-нибудь спрогнозировать. Оценим суммарную успеваемость при прогулах:
баллов.
Но это лишь точечный прогноз, вычисленный к тому же по выборочному уравнению. А ведь существует генеральное уравнение регрессии и, следовательно, генеральное прогнозируемое значение успеваемости при . И наша задача состоит в том, чтобы найти доверительный интервал:
– который с заранее заданной доверительной вероятностью (например) накроет истинное значение .
Используем формулу , где – коэффициент доверия, а – стандартная ошибка точечного прогноза.
Для уровня доверительной вероятности и количества степеней свободы находим коэффициент доверия (Макет, пункт 10б).
Достарыңызбен бөлісу: |