Тема основные понятия информатики. Основные информационные процессы. Этапы информационного развития общества


Показатели центра распределения. Средние величины



бет11/14
Дата25.07.2016
өлшемі3.16 Mb.
#221176
1   ...   6   7   8   9   10   11   12   13   14

Показатели центра распределения. Средние величины


Важным свойством статистической совокупности является положение центра ряда распределения. В примере (табл. 10) представлены данные о распределении 80 мужчин и 33 женщин по росту и соответствующие полигоны частот (рис. 1).




Распределение мужчин и женщин по росту Таблица 10

Рост (см)

V

Рост (см) Vcp

Число

VP1

VP2

жешцин

P1

мужчин

Р2

150-151

151

1

1

151

151

152-153

153

3

4

459

612

154-155

155

5

8

775

1240

156-157

157

7

11

1099

1727

158-159

159

6

14

954

2226

160-161

161

5

17

805

2737

162-163

163

3

15

489

2445

164-165

165

2

9

330

1485

166-167

167

1

1

167

167




Итого

P1 = 33

P2=80

VP1 = 5229

VP1 =12790

Из этих данных видно, что кривые распределения показателей у мужчин и женщин имеют отличия. Они связаны с различным числом наблюдений и поэтому имеют разные высоты кривых, а также сдвинуты одна относительно другой. Параметры распределения, с помощью которых можно оценить величину этого сдвига, характеризуют распределение ряда положением его середины и называются средними величинами. Средняя величина выражает характерную, типичную для данного ряда величину признака. Эта величина образуется в данных условиях места и времени под воздействием всей совокупности действующих факторов. Средняя величина является равнодействующей всех этих факторов. В средней величине погашаются индивидуальные различия отдельных единиц наблюдения, обусловленные случайными, привходящими обстоятельствами.




Рис.1. Распределение мужчин и женщин по росту


      1. Среднее арифметическое. Статистическое взвешивание


Наиболее употребительной из средних величин является среднее арифметическое. Среднее арифметическое может обозначаться различным символом (M, А и др.). В медицинской статистике чаще всего для его обозначения применяется символ М (от латинского Медиа — середина). Для простого среднего арифметического, которое вычисляется в простом, не сгруппированном вариационном ряду используется формула:  или в более упрощенном виде:  где п - число наблюдений, а Vi - варианты (V1 V2, V3 ... Vn).

С арифметической точки зрения в основе вычислений лежат две простые операции: сложение всех вариант и деление полученной суммы на число наблюдений.

Таблица 11

Вес в граммах

V

Число

детей

Р

VP

Частости



Условные

отклонения

D

D

I

II

III

IV

V

IV x V

3350

100

335000

0,04

-5

-0,20

3400

150

510000

0,06

-4

-0,24

3450

175

603750

0,07

-3

-0,21

3500

250

875000

0,10

-2

-0,20

3550

275

976250

0,11

-1

-0,11

А=3600

300

1080000

0,12

0

0

3650

375

1368750

0,15

1

0,15

3700

275

1017500

0,11

2

0,22

3750

225

843750

0,09

3

0,27

3800

200

760000

0,08

4

0,32

3850

125

481250

0,05

5

0,25

3900

50

195000

0,02

6

0,12

Всего

2500

9046250

1,00

-

0,37




      1. Мода и медиана


Мода (Мо) - наиболее часто встречающая в ряду распределения варианта. Она дает представление о центре распределения вариационного ряда. Используется:

  • для определения центра распределения в открытых вариационных рядах;

  • для определения среднего уровня в рядах с резко ассиметричным распределением.

Пример 1.

в ранжированном ряду: 57, 57, 57, 58, 58, 58, 58, 58, 58, 59, 59, 60, 60, 60, 61, 61, 61, 62, 62, 62, 63, 63, 63, 63, 64, 64, 64, 62, 65. Мода = 58
Пример 2.

Требуется определить среднюю длительность госпитализации рабочих промышленных предпрятий в связи с производственным травматизмом.

Распределение обследованных по длительности госпитализации

Таблица 12

Число дней госпитализации

v

Число рабочих

p

Частости

Накопленные частости

2

6

0,10

0,10

3

18

0,30

0,40

4

14

0,23

0,63

5

10

0,17

0,80

6

6

0,10

0,90

7

3

0,05

0,95

8

2

0,03

0,98

9

1

0,02

1,00

Итого

60

1,00






Рис.2. Распределение обследованных по длительности госпитализации

При визуальном анализе графического изображения распределения (рис.2.) видно, что ряд распределения не симметричен: вершина распределения сдвинута в начало ряда. Если определять среднею величину на основе среднего арифметического, то средняя длительность одной госпитализации составит 4,2 дня. Однако чаще всего длительность госпитализации составляет 3 дня.

Медиана это серединная варианта, центральный член ранжированного ряда. Название медиана взято из геометрии, где так именуется линия, делящая сторону треугольника на две равные части. В статистике медиана приходится на тот член ранжированного ряда, который «рассекает» совокупность на равные части.

Например, в совокупности 17, 18, 19, 20, 21, 22, 23, 24, 25 - медианой будет пятая по счету (ранг = 5) варианта 21, ибо четыре значения (17, 18, 19, 20) лежат с одной стороны медианы, и столько же с другой (22, 23, 24, 25).

Если вариант в ряду четное количество 18, 19, 20, 21, 22, 23, 24, 25, то медиана равна полусумме двух средних вариант: (21+22)/2=21,5.

Медиана применяется:

  • для определения среднего уровня признака в числовых рядах с неравными интервалами в группах;

  • для определения среднего уровня признака, когда исходные данные представлены в виде качественных признаков и когда единственным способом указать некий центр тяжести совокупности является указание варианты (группы вариант), которая занимает центральное положение;

  • при вычислении некоторых демографических показателей (средней продолжительности предстоящей жизни);

  • при определении наиболее рационального места расположения учреждений здравоохранения, коммунальных учреждений




    1. Оценка статистических параметров по выборочным данным

В практике медико-биологических исследований изучаются обычно выборочные, а не генеральные совокупности. Естественно, что замена исследования генеральной совокупности исследованием выборки порождает ряд вопросов:

  1. В какой степени выборка отражает свойства генеральной совокупности, т. е. в какой степени выборка репрезентативна по отношению к генеральной совокупности?

  2. Какую информацию о значениях параметров генеральной совокупности могут дать параметры выборки?

  3. Можно ли утверждать, что полученные выборочным путем статистические характеристики равны тем характеристикам, которые могут быть получены из генеральной совокупности.

Проверка показывает, что значения параметров, полученных для разных выборок из одной генеральной совокупности, обычно не совпадают. Рассчитанные выборочным путем числовые значения параметров выборок являются лишь результатом приближенного статистического оценивания значений этих параметров в генеральной совокупности. Статистическое оценивание, в силу изменчивости наблюдаемых явлений, позволяет

Различают оценки точечные и оценки интервальные. Проиллюстрируем точечные оценки простым условным примером. Пусть мы имеем генеральную совокупность N, состоящую всего из 10 вариант.

Среднее значение генеральной совокупности составляет:

М=(16+18+20+22+24+26+28+30+32+34)/10=25,0. Затем получим среднее арифметическое выборочным путем. Для этого сформируем случайным способом три выборки с числом наблюдений равным 3, 4 и 5


Таблица 13

Генеральная совокупность N

1-я выборка

2-я выборка

3-я выборка

1

16







16

2

18




18




3

20

20

20




4

22

22




22

5

24







24

6

26

26

26




7

28










8

30







30

9

32




32




10

34







34

Число наблюдений

10

3

4

5

Ср.арифметическое

25,0

22,7

24,0

25,2

Отклонение выборочных средних от генерального среднего




2,3

1,0

-0,2

Полученные выборочные средние (22,7; 24,0; 25,2) являются точечными оценками генерального среднего (25,0). Любая выборочная характеристика, используемая в качестве приближенного значения генеральной характеристики и получаемая вычислением одного числа (точки), называется точечной статистической оценкой. При избрании способа получения точечных оценок учитывается, что они должны обладать свойствами состоятельности, несмещённости и эффективности.

Состоятельная оценка - точечная оценка, которая при неограниченном увеличении объема выборки приближается (сходится) к истинному значению оцениваемой генеральной характеристики. Например: по данным примера среднее арифметическое в первой выборке составило 22,7, во второй - 24,0, в третьей - 25,2. Нетрудно заметить, что по мере увеличения числа наблюдений выборочные средние все больше приближаются к генеральному среднему (25,0). Соответственно абсолютные значения отклонений выборочных средних от генерального среднего уменьшаются (2,3; 1,0; 0,2). Таким образом, эти выборочные средние можно считать состоятельными точечными оценками генерального среднего. Следует отметить, что приведенный пример является условным. На практике обнаружить схождение выборочных характеристик удается при значительно большем росте числа наблюдений

Несмещенная оценка - точечная оценка, лишенная систематической ошибки. Например: выборочное среднее арифметическое является несмещенной оценкой генерального среднего. То есть выборочные средние могут иметь случайные отличия от генеральных.

Эффективная оценка - такая точечная оценка, которая гарантирует наименьшее отклонение выборочной оценки от такой же оценки генеральной совокупности.
      1. Доверительная значимость, доверительная вероятность, доверительный интервал, доверительный предел

Оценки, рассмотренные выше, являются точечными. В связи с этим возникает вопрос: можно ли по результатам точечной оценки одной лишь выборки судить о свойствах всей генеральной совокупности. На первый взгляд кажется, что нельзя. На приведенном примере (см. табл. 13) видно, что выборочные средние не совпадают с генеральным средним. Однако каждый результат, полученный в отдельной выборке, можно рассматривать как случайную величину. Соответственно, при увеличении числа выборок, распределение точечных оценок будет принимать характер нормального распределения. Это значит, что в случае средних арифметических относительные отклонения выборочных средних от генерального среднего распределяются так же, как относительные отклонения нормально распределенных вариант от среднего арифметического вариационного ряда.



Отсюда в частности следует, что 68,3% всех выборочных средних находятся в пределах =М ± т. Иными словами имеется вероятность 0,683, что выборочное среднее отличается от генерального не более чем на ±т. В этой формуле  - предельная ошибка выборки, М - среднее выборочное, т - стандартное отклонение среднего значения. В медико-биологической литературе параметр т принято называть «стандартная ошибка среднего» или «ошибка среднего».

Поскольку параметр т характеризует ошибку утверждения (ошибку прогноза) о том, что выборочное среднее равно генеральному среднему, то чем выше требование к вероятности этого вывода, тем шире должен быть обеспечивающий точность такого прогноза интервал, называемый «доверительный интервал».

Статистическая оценка, которая определяется двумя числами - концами интервала, называется интервальной оценкой.

Величина доверительного интервала задается вероятностью безошибочного прогноза, эту вероятность принято называть «доверительная вероятность» или вероятностью безошибочного прогноза, а иногда надежностью. Величина доверительной вероятности может задаваться доверительным параметрическим коэффициентом t — коэффициентом Стьюдента (псевдоним английского химика У. Госсета, 1908).

При достаточно большом числе наблюдений (п > 30), значения доверительного коэффициента t и доверительной вероятности соотносятся следующим образом (табл. 14).

Таблица 14

Доверительный критерий t

Доверительная вероятность (%)

Уровень значимости (Р)

1

68,3

0,32

2

95,5

0,05

3

99,7

0,01

При малых числах наблюдений значения коэффициента Стьюдента с учетом уровня доверительной вероятности можно установить по специальным таблицам.

Выбор того или иного уровня значимости или, соответственно, доверительной вероятности в общем является произвольным. В медико-биологических исследованиях допускается доверительная вероятность не менее 95,5%. В этом случае доверительный интервал для средних при достаточно большом числе наблюдений (п >30), равен ±2т. Предельная ошибка выборки =М±2т. При доверительной вероятности 99,7% доверительный интервал составит ±3т, =М ± 3т. В целом, чем больше доверительная вероятность, тем больше доверительный интервал и предельная ошибка.

Граничные точки доверительного интервала называются доверительными пределами.

Каждому значению доверительной вероятности соответствует свой уровень значимости (Р). Уровень значимости выражает вероятность нулевой гипотезы, т.е. вероятность того, что выборочная и генеральные средние не отличаются друг от друга. Иначе говоря, чем выше уровень значимости, тем меньше можно доверять утверждению, что различия существуют. Для доверительной вероятности 0,95 (95%), например, уровень значимости Р= 1 - 0,95=0,05.
Интервальные оценки среднего арифметического Таблица 15

М =25.2 m=3.1 n=50

Критерий Стьюдента t

1

2

3

Доверительная вероятность

68,3%

95,5%

99,7%

Уровень значимости Р

0,32

0,05

0,01

Доверительный интервал ± tm

±3,1

±6,2

±9,3

Предельная ошибка выборки 

25,2±3,1

25,2±6,2

25,2±9,3

Доверительные пределы М+tm+M-tm

28,1+22,1

31,4+19,0

34,5+15,9


Если выборки небольшие по объему, то распределение вероятностей не следует точно нормальному закону распределения. В этом случае для определения величины доверительного коэффициента, соответствующей определенному значению доверительной вероятности или уровню значимости, пользуются специальными таблицами. Очевидно, что в реальных исследованиях желательно иметь как можно меньший доверительный интервал при достаточно высокой доверительной вероятности.

Таким образом, статистическая значимость выборочных характеристик представляет собой меру уверенности в их «истинности». Уровень значимости находится в убывающей зависимости от надежности результата. Более высокая статистическая значимость соответствует более низкому уровню доверия к найденной в выборке характеристике. Именно уровень значимости представляет собой вероятность ошибки, связанной с распространением наблюдаемого результата на всю генеральную совокупность

Выбор порога уровня значимости, выше которого результаты отвергаются как статистически не подтвержденные, во многом произвольный. Как правило, окончательное решение обычно зависит от традиций и накопленного практического опыта в данной области исследований. Верхняя граница Р<0,05 статистической значимости содержит довольно большую вероятность ошибки (5%). Поэтому в тех случаях, когда требуется особая уверенность в достоверности полученных результатов, принимается значимость Р<0,01 или даже Р<0,001

В практике медико-биологических исследований наиболее часто используются следующие значения показателей значимости: 0,1; 0,05; 0,01; 0,001.

Формулы определения достоверности разности представлены следующим образом:

  • для средних величин: ;

  • для относительных показателей:,

где t- критерий достоверности, m1 и m2 – ошибки репрезентативности, М1 и М2 – средние величины, Р1 и Р2 - относительные показатели.
Задача 1

При изучении комбинированного воздействия шума и низкочастотной вибрации на организм человека было установлено, что средняя частота пульса у водителей сельскохозяйственных машин через 1ч после начала работы составила 80 ударов в минуту; m= ± 1 удар в минуту. Средняя частота пульса у этой же группы водителей до начала работы равнялась 75 ударам в минуту; m= ± 1 удар в минуту.

Оценить достоверность различий средних значений пульса у водителей сельскохозяйственных машин до и после 1ч работы. Число наблюдений (n), т.е. совокупность водителей, составило 36 человек.

Решение


Вывод: значение критерия t=3,5 соответствует вероятности безошибочного прогноза Р>99,7%, следовательно, можно утверждать, что различие в средних значениях пульса у водителей сельскохозяйственных машин до и после 1ч работы не случайно, а достоверно, существенно, т.е. обусловлено влиянием воздействия шума и низкочастотной вибрации.
Задача 2

При медицинском осмотре 40 детей 3-летнего возраста в 18% (т= ±6,0%) случаев обнаружено нарушение осанки функционального характера. Частота аналогичных нарушений осанки при медосмотре детей 4-летнего возраста составила 24% (т= ±6,7%).

Оценить достоверность различий в частоте нарушения осанки у детей 2 возрастных групп.

Решение


Вывод: значение критерия t<1,0 соответствует вероятности безошибочного прогноза Р<68,3%. Следовательно, частота нарушений осанки не имеет существенных различий у детей 3- и 4-летнего возраста (различия случайны).



  1. Достарыңызбен бөлісу:
1   ...   6   7   8   9   10   11   12   13   14




©dereksiz.org 2024
әкімшілігінің қараңыз

    Басты бет