q1 q2
При расчёте среднего квадратического отклонения, для генеральной совокупности:
σ = , где С = V – , N - объём генеральной совокупности.
Среднее квадратическое отклонение (сигма) - показатель именованный, выражается в тех же единицах, что и варианты, и средняя арифметическая, и поэтому показать разнообразие признаков, выраженных в разных единицах измерениях, оно не может. В таких случаях используются другие показатели, такие как коэффициент вариации и нормированное отклонение.
Коэффициент вариации (CV)
Коэффициент вариации – это отношение сигмы к средней арифметической, выраженное в процентах.
CV = 100%
В биологических исследованиях следует считать, что:
если CV < 10% - разнообразие слабое, материал однородный;
если 10% < СV < 20% - разнообразие среднее,
если СV ≥ 20% - разнообразие большое, материал неоднородный.
Пример:
-
Показатели
| M |
σ
|
СV
|
Живая масса телят при рождении
Живая масса коров
Процент жира в молоке
Удой за лактацию
Высота в холке
|
30 кг
400 кг
4 %
3000 л
120 см
|
3 кг
48 кг
0,2 %
600 л
7,2 см
|
10%
12%
5 %
20%
6%
|
Из данной таблицы видно, что по проценту жира в молоке и высоте в холке разнообразие в стаде небольшое, наибольшее разнообразие по удою за лактацию, т.е. можно предположить, что в стаде животные одной породы, но разновозрастные.
Нормированное отклонение (X)
Нормированное отклонение - это есть центральное отклонение, выраженное в сигмах: X = .
Оно даёт возможность оценить отдельные объекты в группе по нескольким признакам, сравнить отдельные объекты из разных групп, входит в расчёты законов распределения.
Пример:
-
Показатели
|
Группа коров
|
Оцениваемое животное
|
М
|
σ
|
V
|
X=
|
Удой зал лактацию
|
3500 л
|
500 л
|
4000 л
|
+ 1
|
Процент жира в молоке
|
3,62%
|
0,20%
|
3,50%
|
- 0,6
|
Живая масса
|
455 кг
|
50 кг
|
450 кг
|
- 0,1
|
Высота в холке
|
118 см
|
10 см
|
120 см
|
+ 0,2
|
Индекс мясности
|
0,57
|
0,05
|
0,52
|
- 1
|
Нормированное отклонение показывает, что оцениваемая корова даёт молока на 1 σ больше среднего показателя по группе, а по проценту жира и индексу мясности значительно отстаёт.
Пример :
Корова № 1 за лактацию дала 3500 л молока при среднем удое по группе М1 = 2500 л и σ1 = 300 л. Корова №2 дала за лактацию 4000 л при среднем удое по группе М2 = 3500 л и σ2 = 500 л.
X1 = = + 3,3σ; X2 = = +1σ
Показатель коровы № 1 выходит за пределы +3σ,т.е. это животное резко выделяется в группе, по существу это рекордистка, вторая же мало выделяется от животных со средним показателем.
3. СТАТИСТИЧЕСКИЕ ОШИБКИ
В результате биометрической обработки материала могут возникать 5 групп ошибок:
1. Методические – применение порочной методики (невыравненность условий жизни контрольных и подопытных животных и т.п.). Биометрия эти ошибки не исправляет.
2. Ошибки точности – использование непроверенных, неисправных приборов, неточные расчёты (с избыточной или недостаточной точностью). Биометрия такие ошибки не исправляет.
3. Случайные ошибки – описки, просчёты, перепутывание или потеря данных.
4. Ошибки типичности – нетипичные объекты в выборке. Биометрия их не выявляет.
5. Ошибки репрезентативности (представительности), ошибки выборочных данных. Они происходят потому, что о генеральной совокупности судят по выборке. Однако выборочное обследование даёт точную характеристику генеральной совокупности, т.к. величину ошибок репрезентативности можно свести к минимуму. Можно определить возможную величину ошибок репрезентативности и учитывать их. Эта группа ошибок присуща всем статическим показателям, когда исследование ведётся по выборке. Генеральная совокупность ошибок репрезентативности не имеет.
Ошибка средней арифметической зависит от сигмы и от числа вариант в выборочной совокупности. Она в случае, когда объём генеральной совокупности неизвестен или близок к бесконечности, вычисляется по формуле:
mм =.
Когда объём генеральной совокупности известен, формула для вычисления ошибки выглядит следующим образом:
mм = ·,
где n – объём выборки, N – объём генеральной совокупности.
Ошибка среднего квадратического отклонения: mσ=
Ошибка коэффициента вариации: mCV =
Ошибки репрезентативности дают возможность по выборке определить границы параметров генеральной совокупности.
Оценка генеральных параметров
Она проводится в форме определения двух крайних значений - минимального и максимального. max
= ± t ּm
min
– генеральный параметр, – выборочный параметр, m – ошибка выборочного параметра, t – критерий надёжности или показатель вероятности безошибочных прогнозов .
Практика биологических исследований выработала 4 порога вероятности безошибочных прогнозов: нулевой порог - В0 = 0,90, первый порог - В1 = 0,95, второй порог- В2 = 0,99, третий порог - В3 = 0,999.
Для достаточно больших выборок величина критерия надёжности связана с этими четырьмя порогами и определяется по таблице:
Пороги надёжности
|
Критерий надёжности
|
Объём выборки
|
В0 = 0,90
В1 = 0,95
В2 = 0,99
В3 = 0,999
|
t = 1,6
t = 2,0
t = 2,6
t = 3,3
|
n ≥ 20
n ≥ 30
n ≥ 100
n ≥ 200
|
При малых выборках критерий надёжности вычисляется по формуле Стьюдента:
t ν = t∞ + ,
где ν - число степеней свободы, равное n – 1, t – критерий надёжности для больших выборок.
Пример:
= 360 , = 25, n =100
max
= ± t ּ m tВ2 = 2,6.
min
366,5
m = MB2 = 360 ± 2,6 2,5 ,
353,5
т.е. в 99% выборочных исследований средняя арифметическая не выйдет за пределы 366,5 ÷ 353,5.
Оценка средней разности
Часто приходится проводить парные исследования: продуктивность матерей и дочерей, показатели до и после лечения и т.п.
Пример. При оценке производителя сравнивали удой 20 дочерей с удоем их матерей. В результате получено 20 разностей (d = Д – М), из которых получают сводные выборочные показатели. Допустим, что Мd = + 1ц., = 2,5ц. Возникает вопрос: будут ли все дочери этого быка лучше своих матерей, т.е. будет ли генеральная разность (d) тоже положительной?
Учитывая большое экономическое значение данного показателя, необходимо оценить генеральный параметр с надёжностью не ниже второго порога(0,99). При объёме выборки n =20, t – критерий надёжности определяется по таблице или по формуле Стьюдента:
tν ==2,9
Вычисляется ошибка репрезентативности:
Генеральный параметр находим по формуле:
+2,6
d = d ± t · md = 1 ± 2,9 · 0,56 = 1 ± 1,6
-0,6
Таким образом, по этим расчётам можно дать прогноз, что дочери не всегда будут лучше матерей. Такие результаты, когда нельзя получить определённой оценки генерального показателя, называются недостоверными.
Если повторить предыдущую оценку на 100 парах мать-дочь при тех же сводных показателях (Мd = +1, σ = 2,5), то оценка генеральной средней разницы будет вполне определённой и достоверной:
n = 100, t = 2,6; m =
+ 1,65
Md = 1 ± 2,6 · 0,25 = 1 ± 0,65
+ 0,35,
т.е. производитель достоверный улучшатель, т.к. дочери с вероятностью В = 0,99 будут лучше своих матерей.
4. ДОСТОВЕРНОСТЬ РАЗНОСТИ ПОКАЗАТЕЛЕЙ
Целью любого исследования является выяснение разности между сравниваемыми группами.
Допустим , имеются две выборочные средние 1 и 2 .Может оказаться, что 1 > 2. А какой будет разность между генеральными средними?
Когда направление разницы между выборочными показателями по знаку совпадает с направлением разницы между генеральными, разность считается достоверной, т.е. 1 > 2 12. Когда же направление разницы в выборке не совпадает по знаку в генеральной совокупности, разность будет недостоверной, т.е.1 > 2 1 ≤2.
Для определения достоверности разности существуют несколько критериев. Один из них – критерий достоверности разности по Стьюденту: td =, где d -разность между выборочными показателями (), md - ошибка этой разности (md = ).
Вычисленный td сравнивается со стандартным значением tst, определённым по таблице, а при малых выборках - по формуле Стьюдента при ν = n1 + n2 - 2.
Когда td > tst – разность будет достоверной по соответствующему порогу надёжности.
Когда td < tst – разность недостоверна, т.е. по выборочной разности нельзя сделать никакой оценки генеральной разницы.
Пример.Сравниваем вес индеек 2 пород:
n1 = 20, M1 m1 = 4,0 0,3
n2 = 25, M2 m2 = 4,6 0,4
td=
td < tst (1,2 < 1,6) даже по нулевому порогу, значит разность недостоверна.
При повторении исследования на более обширном материале: n1 = 100, M1 m1 = 4,1 0,1 n2 = 100, M2 m2 = 4,7 0,1
td = = 4,3
т.е. разность достоверна по третьему порогу (td = 4,3 > tst = 3,3 ).
Достоверность разности зависит от:
-
Объёма выборки;
-
Разнообразия внутри групп;
-
Величины разницы между группами.
Критерий согласия 2
Критерий согласия нужен, когда устанавливается соответствие между рядами наблюдений, для сравнения наблюдаемых показателей с теоретическими, для определения достоверности разницы между распределениями, для вычисления коэффициента корреляции.
Критерий согласия – это мера отличий наблюдаемых значений от тех, которые должны получиться согласно первоначально принятой нулевой гипотезе – теоретически.
2=,
где 0 - значения фактических наблюдений
– теоретические значения.
Пример. При моногибридном наследовании во втором поколении по Менделю происходит расщепление в соотношении 3:1. В опыте же получилось 310:90.
|
0
|
|
0 -
|
(0- )2
|
|
+-
|
310
90
|
300
100
|
10
-10
|
100
100
|
100/300=0,3
100/100=1
|
2=0,3+1=1,3
Если бы было полное совпадение, т.е. 0 = , то 2= 0.
Значение 2 может быть от 0 до
Чем больше значение 2, тем больше расходятся эмпирические данные от теоретических. Расчёт ведётся по числу степеней свободы. Число степеней свободы определяется путём вычитания числа наложенных ограничений из числа вариант:
ν = (r – 1)(c - 1),
где r – число клеток по горизонтали,
с – число клеток по вертикали.
В биологии нулевая гипотеза (нет разницы между фактическими и теоретическими значениями) отбрасывается, когда 2 при одной степени свободы больше 3,84, при двух – 6,00, при трех – 7,82.
Это значит, что если 2 при одной степени свободы меньше 3,84, принимается нулевая гипотеза – разницы нет, если больше (2>3,84) – расхождение между наблюдаемыми и теоретическими значениями существенно.
Есть другие способы вычисления 2. Можно представить в виде многопольной решётки (чаще четырёхпольной).
Гр
|
+
|
-
|
|
0
|
310 а
|
90 в
|
а + в
|
|
300 с
|
100 d
|
c + d
|
|
а+с
|
в +d
|
a +в+с+d
|
2=,
где r – ожидаемое отношение (в данном случае r = 3:1=3 по закону Менделя)
2=
Так рассчитывается 2, когда теоретические данные известны.
Если они неизвестны, их рассчитывают. Для этого фактические данные заносят в многопольную решётку.
а
|
b
|
a+b
|
c
|
d
|
c+d
|
a + c
|
b+d
|
a+b+c+d
|
Теоретические данные
Пример. Сравнить 2 способа лечения.
-
Гр.
|
Выздоров.
|
Пало
|
|
Сп. А
|
15
(12,5) а
|
5
(7,5) b
|
20
|
Сп. В
|
10
(12,5) с
|
10
(7,5) d
|
20
|
|
25
|
15
|
40
|
,
т.е. на основании рассчитанных теоретических данных создаётся нулевая гипотеза – разницы между этими способами нет.
Находим
-
0
|
|
0 -
|
(0 – )
|
|
15
5
10
10
|
12,5
7,5
12,5
7,5
|
2,5
-2,5
-2,5
2,5
|
6,25
6,25
6,25
6,25
|
0,50
0,83
0,50
0,83
|
2 = 2,66 < =3,84
Значит, 0 – гипотеза принимается – существенной разницы нет.
При возможности занесения данных в четырехпольную решётку (чаще при качественных показателях) расчёты проводят по формуле:
2 =
2 =
Если хотя бы в одной клетке решётки значение будет меньше 4, то в формулу вводится поправка Ейтса: 2 =
-
группы
|
+
|
-
|
|
опыт
|
0
a
|
3
b
|
3
|
контр.
|
2
c
|
0
d
|
2
|
|
2
a+c
|
3
b+d
|
5
|
2 =
5. БИОМЕТРИЧЕСКАЯ ОБРАБОТКА КАЧЕСТВЕННЫХ ПОКАЗАТЕЛЕЙ
Качественные признаки обычно не могут иметь градаций проявления: они или имеются, или не имеются у каждой особи, например, пол, комолость, наличие или отсутствие каких-нибудь особенностей, уродств, хромосомных перестроек, точечных мутаций, заболеваний, исходов болезней и т.д.
Принципиальной разницы между количественными и качественными признаками нет. Степень проявления большинства качественных признаков может быть измерена, и тогда качественный признак становится количественным. И наоборот, любой количественный признак может быть выражен в альтернативной форме (например, тяжелобольной, среднебольной, здоровый) и тогда он превратится в качественный признак.
Качественные признаки можно обработать математически в виде вариационных рядов, рассчитать типичное значение признака, среднюю, степень разнообразия, зависимость качественных признаков от количественных признаков, оценку достоверности.
Абсолютное значение признака обозначается р+ - и доля р рассчитывается формулой : ; где р+ - значение носителя признака, n - объём группы.
Качественные признаки выражаются в процентах:
Пример. В 1 звероферме было 500 норок и они распределились по окраске меха.
-
Типы окраски
|
Число зверей
р+
|
Доли единиц
р
|
Процент
р%
|
Коричневый
Серо – голубой
Сапфировый
Чёрный
|
120
160
180
40
|
0,24
0,32
0,36
0,08
|
24
22
36
8
|
|
500
|
1
|
100%
|
Рассчитать долю единицы, «процент».
Как изобразить в виде вариационного ряда:
|
|
V
|
f
|
a
|
f·a
|
+
|
Есть признак
|
1
|
р+
|
1
|
р+
|
-
|
Нет признака
|
0
|
р-
|
0
|
0
|
Можно рассчитать М : ;
Значит, доля будет равна средней арифметической: р = M.
Зная среднюю арифметическую, можно найти сигму и другие показатели
, зная сигму, можно найти ошибку: , где q- доля противоположного признака.
Мы имеем возможность определить долю генеральной совокупности:
max
= t mp
min
Рассчитайте хотя бы по первому порогу надёжности коричневый цвет:
Отсюда видно, что по всей ферме коричневый цвет колеблется в пределах от 28, до 20 процентов:
0,28
= 0,24 ± 2 · 0,02
0,20
И самое главное – достоверность разницы, т.е. найти критерий достоверности:
, где ,
Если выборки взяты из одной генеральной совокупности и воздействие на них разное, то md рассчитывается так же, как при количественных признаках:
;
если выборки взяты из разных совокупностей, а воздействие на них одно, то md рассчитывается по формуле:
md=; где рвзв – взвешенная доля
, q = 1-рвзв
Примеp: выборки взяты из одной генеральной совокупности
n1 = 16 р1+ =4 р1 и р2
n2 = 12 р2+ = 6 надо найти m1 и m2
= ; =;
Пример: выборки взяты из разных совокупностей:
n1 = 284 р1+ = 83
n2 = 50 р2+ = 6 найти td = ?
=0,17
=, q = 1- р = 0,73
6. УЧЕНИЕ О СВЯЗЯХ (КОРРЕЛЯЦИЯ)
Во многих исследованиях требуется изучить несколько признаков в их взаимной связи. Если вести такое исследование по отношению к двум признакам, то можно заметить, что изменчивость одного признака находится в некотором соответствии с изменчивостью другого.
В некоторых случаях такая зависимость проявляется настолько сильно, что при изменении первого признака на определённую величину всегда изменяется и второй признак на определённую величину, поэтому каждому значению первого признака всегда соответствует совершенно определённое, единственное значение второго признака. Такие связи называются функциональными.
При изучении живых объектов – диких и культурных растений, животных, микроорганизмов – приходится иметь дело со связями другого рода. Живой организм развивается в связи с условиями его жизни, под действием бесконечно большого числа факторов, которые по-разному определяют развитие разных признаков.
У живых объектов связь между любыми двумя признаками настолько часто и сильно разрушается и модифицируется, что не всегда может быть обнаружена. У растений, животных и микроорганизмов связь между признаками обычно проявляется особым образом. Каждому определённому значению первого признака соответствует не одно значение второго признака, а целое распределение этих значений, при вполне определённых основных показателях этого частного распределения – средней величины и степени разнообразия. Такая связь называется корреляционной или просто корреляцией.
По форме корреляция может быть прямолинейной и криволинейной, по направлению – прямой и обратной. Одним из показателей наличия связи является коэффициент корреляции – r.
Коэффициент корреляции
Используется для определения направления и силы связи: .
Число показывает силу связи, знак на направление. Если коэффициент корреляции
r < 0,5, то связь слабая
r = 0,6 – 0,7, то связь средняя
r > 0,7, то связь сильная.
В биологии доли связанных признаков определяются квадратом коэффициента корреляции:
r2 <0,25 - связь слабая
r2 = 0,36 - 0,49 - связь средняя
r2 >0,49 - связь сильная.
Существует несколько коэффициентов корреляции:
-
Простой коэффициент корреляции используется для нахождения связей между количественными признаками.
Рабочая формула: ,
где n – количество сравниваемых пар;
, где C – дисперсия
Пример: взяты матери различных возрастов и определили у них количество молока. Есть ли связь между возрастом и секрецией?
-
N
|
Возраст V1
|
Кол-во молока после кормления ребенка V2
|
|
|
V1·V2
|
1
2
3
4
5
6
7
8
9
10
|
15
18
21
24
27
30
33
36
39
42
|
110
100
105
110
105
90
95
90
85
80
|
225
324
441
576
729
900
1089
1296
1521
1764
|
12100
10000
11025
12100
11025
8100
9025
8100
7225
6400
|
1650
1800
2205
2640
2835
2700
3135
3240
3315
3360
|
∑
|
285
|
970
|
8865
|
95100
|
26880
|
r2=0,75 - связь обратная, сильная.
2. Коэффициент ранговой корреляции
rs=
d – разность рангов. Ранг – это номер варианты в ранжированном ряду. Если одинаковых вариант несколько, ранг равен среднему номеру
V - 80 85 90 90 95 100 105 105 110 110
N - 1 2 3 4 5 6 7 8 9 10
R - 1 2 3,5 5 6 7,5 9,5
ранги
|
d
|
d2
|
V1
|
V2
|
1
2
3
4
5
6
7
8
9
10
|
9,5
6
7,5
9,5
7,5
3,5
5
3,5
2
1
|
8,5
4
4,5
5,5
2,5
2,5
2
4,5
7
9
|
72,25
16
20,25
30,25
6,25
6,25
4
20,25
49
81
|
; r2 = 0,72 - связь сильная, обратная.
3. Коэффициент корреляции для качественных показателей (тетрахорический):
rю=
Если посмотреть опыт Моргана, как зависят цвет тела и форма крыльев, то нужно скрестить серого самца с нормальными крыльями с чёрными самками с недоразвитыми крыльями (рецессивный признак).
Во втором поколении получилось:
Серых - 100 с нормальными крыльями
20 с зачатковыми крыльями
чёрных - 20 с нормальными крыльями
100 с зачатковыми крыльями.
-
Гр.
|
Нормальн. крылья
|
Зачатковые крылья
|
∑
|
Серое тело
|
100
a
|
20
b
|
a+b
|
Чёрное тело
|
20
c
|
100
d
|
c+d
|
∑
|
a + c
|
b + d
|
a+b+c+d
|
rю=
связь прямая, средняя.
Коэффициент корреляции можно вычислить по формуле, предложенной Чупровым:
, где χ – критерий согласия.
Так же как у других показателей, у коэффициента корреляции есть ошибки репрезентативности:
, где N – количество сравниваемых пар.
Зная ошибку, можно найти достоверность:
Рассчитаем ошибку по первому примеру:
Теперь, зная ошибку, можем определить коэффициент корреляции в генеральной совокупности:
.
Достарыңызбен бөлісу: |