Стандартную ошибку точечного прогноза вычислим по формуле:
, где – стандартная ошибка регрессии (вычислена в пункте 3), – выборочное среднее значение признака-фактора (вычислено в ходе решения Примера 67), (вычислена там же, 2-й способ решения).
АККУРАТНО подставляем все значения и ВНИМАТЕЛЬНО считаем:
Таким образом, и искомый доверительный интервал:
левое значение естественно округлим до нуля:
– данный интервал с вероятностью накрывает истинное генеральное значение прогноза успеваемости при прогулах.
И оценка, конечно, опять получилась грубой, надежда, короче, для прогульщиков :) Но статистика, она неумолима – повезло раз, повезло два и может даже три, а потом….
Иными словами, при увеличении объема выборки наступает неизбежная закономерность.
И я рад, что вы читаете эти строки! Это нужно отметить. Аналогичной задачей, в которой исходные данные сведены в комбинационную таблицу:
Пример 72
По результатам Примера 69 на уровне значимости :
– проверить значимость выборочного линейного коэффициента корреляции;
– найти доверительный интервал для генерального коэффициента корреляции;
– проверить значимость коэффициентов уравнения линейной регрессии;
– найти доверительные интервалы для коэффициентов регрессии;
– проверить значимость выборочного уравнения линейной регрессии;
– найти доверительный интервал для прогнозного значения признака-результата, который соответствует .
В подобных ситуациях я традиционно предлагаю решить задачу самостоятельно, но здесь будет много новых моментов, а посему решаю сам. Итак, в Примере 69 по 40 предприятиям региона:
нами была установлена – сильная прямая линейная корреляционная зависимость суточной переработки сырья от стоимости основных фондов, а также найдено выборочное уравнение регрессии , которое показывает, что при увеличении стоимости основных фондов на 1 млрд. руб. суточная переработка сырья увеличивается в среднем на 1,61 тысяч центнеров.
…Все вникли в условие? Ещё раз перечитайте входные данные… Отлично! – поехали:
1) Проверим значимость выборочного коэффициента корреляции , а именно, рассмотрим гипотезу против конкурирующей гипотезы . Нулевая гипотеза говорит нам о том, что генеральный коэффициент корреляции (который, в принципе, можно рассчитать по ВСЕМ предприятиям региона), равен нулю, то есть линейная корреляционная зависимость отсутствует. И альтернатива утверждает, что эта зависимость (переработки сырья от стоимости фондов) существует.
Для проверки гипотезы на уровне значимости используем статистический критерий , где – объём выборки, а – выборочный коэффициент корреляции
Для уровня значимости и количества степеней свободы с помощью соответствующей функции Экселя (пункт 10в) определяем критическое значение двусторонней области:
Если окажется, что наблюдаемое значение критерия попадает в интервал , то оснований отвергать нулевую гипотезу – нет:
Проводим вычисления:
, таким образом, на уровне значимости гипотезу отвергаем в пользу гипотезы .
Иными словами, выборочное значение статически значимо и вряд ли объяснимо случайными факторами, при этом с вероятностью 0,01 мы совершили ошибку первого рода, то есть отвергли правильную гипотезу (когда линейной зависимости на самом деле нет, но мы это отвергли).
2) Определим доверительный интервал для генерального линейного коэффициента корреляции . Поскольку выборка достаточно велика , то целесообразно использовать так называемое преобразование Фишера. Не вдаваясь в его содержательную суть, приведу формальный технический алгоритм.
Преобразуем выборочный коэффициент корреляции по формуле:
, это значение можно подсчитать на калькуляторе либо с помощью специальной функции Экселя (да, разработчики позаботились): =ФИШЕР(r).
Вычислим стандартную ошибку коэффициента «зет»:
Для уровня доверительной вероятности из соотношения найдем коэффициент доверия :
– определяем с помощью таблицы значений функции Лапласа либо по Макету (пункт 5*).
Вычислим нижнюю границу доверительного интервала:
и его верхнюю границу:
Теперь нужно вернуться в размерность нашей задачи с помощью обратного преобразования Фишера:
В Экселе эти значения легко рассчитать с помощью функции =ФИШЕРОБР( ) – для нижнего конца и для верхнего конца .
Таким образом, искомый доверительный интервал:
– с вероятностью накрывает генеральный коэффициент корреляции .
Следует заметить, что интервал получился довольно широким – по той причине, что мы задали суровую надёжность. Если её уменьшить, например, до , то получится более симпатичный результат: .
Рассмотренный метод хорошо работает, если выборка достаточно великА (20-30 наблюдений, по крайне мере) и коэффициент корреляции близок по модулю к единице.
3) Проверим статистическую значимость коэффициентов выборочного уравнения . Проверка будет трафаретной, но с некоторыми техническими новинками и хитростями.
Сначала коэффициент при факторной («иксовой» переменной) . Выдвигаем нулевую гипотезу о том, что соответствующий коэффициент генерального уравнения равен нулю (т.е. линейной корреляционной зависимости не существует). В качестве конкурирующей гипотезы рассматриваем противоположное утверждение .
Чтобы проверить гипотезу на уровне значимости используем тот же критерий , где – выборочное значение коэффициента, а – его стандартная ошибка.
Для уровня значимости и количества степеней свободы с помощью соответствующей функции Экселя (пункт 10в) находим критическое значение двусторонней области .
Не поленюсь, для наглядности снова скопирую рисунок с областью отвержения (красный цвет) и областью принятия нулевой гипотезы:
Наблюдаемое значение критерия найдём по формуле . И здесь вместо того, чтобы выполнять кропотливые вычисления по аналогии с предыдущей задачей, выгоднее использовать тот факт, что проверка значимости коэффициента корреляции равносильна проверке коэффициента при факторной переменной.
Вычислим стандартную ошибку коэффициента «а»:
и наблюдаемое значение:
, поэтому на уровне значимости гипотезу отвергаем в пользу гипотезы .
Достарыңызбен бөлісу: |