6.2 Представление статистических данных
Пусть теперь Х – дискретная случайная величина, принимающая значения х1, х2, ... , хN , а х1, х2, ... , ,хn – выборка, т.е. это значения случайной величины, полученные в результате проведения опытов. Будем полагать, что значение xj наблюдалось nj раз , причем .
Наблюдаемые значения х1, х2, ... , хn называют вариантами, а таблицу с упорядоченными по возрастанию вариантами и соответствующими относительными частотами ( ) называют вариационным рядом.
ТАБЛИЦА 6.2
Х=хj
|
x1
|
x2
|
x3
|
…
|
xj
|
…
|
xm
|
nj
|
n1
|
n2
|
n3
|
…
|
nj
|
…
|
nm
|
|
|
|
|
…
|
|
…
|
|
Из определения относительной частоты следует, что .
Если х1, х2, ... , хn – выборка реализаций непрерывной случайной величины Х или п>>1 (объем выборки большой) для дискретной случайной величины, то строится интервальный вариационный ряд. Методика его построения следующая.
1. Определяются максимальное и минимальное значения выборки.
2. Определяется размах вариационного ряда
.
3. Определяется количество интервалов
.
Если k – не целое, то kокругляется в большую сторону до ближайшего целого числа.
4. Определяется оптимальная ширина интервала , позволяющая выявить характерные признаки Х с минимальным количеством интервалов по формуле Стрэджеса:
.
5. Определяются границы интервалов [aj, aj+1) следующим образом:
, (1 )
6. Производится распределение вариантов по интервалам таким образом, что вариант относят к интервалу [aj, aj+1), если aj xj<aj+1. Затем, распределив варианты по интервалам, подсчитывают их общее число для j – го каждого интервала пj и вычисляют относительные частоты
.
7. Для каждого интервала вычисляют представителя интервала
( ).
ТАБЛИЦА 6.3
Номер интервала
|
1
|
2
…
|
…
|
i
|
…
|
п
|
Границы интервала
[aj, aj+1)
|
а1, а2
|
а2, а3
|
…
|
aj, аj+1
|
|
am, аm+1
|
Частота попадания в интервал
|
n1
|
n2
|
…
|
nj
|
|
nm
|
Относительная частота попадания в интервал
|
|
|
…
|
|
|
|
Представитель интервала
|
|
|
…
|
|
…
|
|
Графическое представление интервального ряда носит название гистограммы. Гистограмма строится следующим образом. По оси абсцисс откладываются интервалы [aj, aj+1) и на каждой из них строится прямоугольник, площадь которого равна относительной частоте . Из построения следует, что площадь суммы всех прямоугольников равна единице. Очевидно, что если плавно соединить левые точки прямоугольников гистограммы, то полученная кривая будет первым приближением к кривой плотности распределения случайной величины Х.
Если число опытов увеличивать, то полученная гистограмма все более будет приближаться к плотности распределения случайной величины Х.
Для исследования вида закона распределения случайной величины по выборке возникает необходимость в построении статистического аналога функции распределения. Такой статистический аналог функции распределения называется эмпирической (статистической) функцией распределения. Эмпирической функцией распределения F*(x) называется закон изменения частоты события X < x в данном статистическом материале, то есть
Для того чтобы найти значение статистической функции распределения при данном х, надо подсчитать число опытов, в которых случайная величина Х приняла значения меньше, чем х, и разделить на общее число произведенных опытов. Полученная таким образом статистическая функция распределения является очень грубым приближением функции распределения F(x) случайной величины Х и в таком виде не используется на практике. Она носит в каком-то смысле качественный характер, из которого можно выдвинуть гипотезу о законе распределения случайной величины Х. При увеличении числа опытов (n ®¥) F*(x) по вероятности сходится к F(x). Однако, с увеличением n построение F*(x) становится очень трудоемкой операцией. Поэтому на практике часто бывает удобно пользоваться статистической характеристикой, которая приближается к плотности распределения. По полученному статистическому материалу (вариационному ряду) можно построить график эмпирической функции распределения. Он имеет вид аналогичной теоретической функции распределения дискретной случайной величины – вид функцией скачков.
|