Интерпретация разрывов при оценке эволюционных расстояний.
При наличии инсерций /делеций после выравнивания нуклеотидных последовательностей возникает проблема их учета при расчете dij, в частности, для последующего построения филогении. Кроме того, ошибочная информация или ее отсутствие для конкретного сайта приводят к тем же сложностям при интерпретации выравнивания, что и разрывы. Эти сайты становятся неинформативными. В результате такие сайты не учитываются при вычислении эволюционного расстояния, однако есть несколько способов это сделать.
Во-первых можно не учитывать такие сайты совсем. Такой способ называется полное удаление (complete–deletion). Поскольку разные районы ДНК эволюционируют по–разному, то этот способ предпочтительнее. С другой стороны, если во всех последовательностях встречаются делеции нескольких нуклеотидов, расположенные относительно случайно, то можно посчитать попарные расстояния, не учитывая только разрывы в рассматриваемой паре последовательностей. Этот способ называется попарное удаление (pairwise–deletion). В качестве иллюстрации рассмотрим три фрагмента ДНК:
-
A–AC–GGAT–AGGA–ATAAA
-
AT–CC?GATAA?GAAAAC–A
-
ATTCC–GA?TACGATA–AGA
Знак (–) обозначает разрыв, а знак (?) – неинформативный сайт в выравнивании. В таблице 5.3 приведены результаты вычисления расстояний двумя способами, т.е используя полное и попарное удаление.
Таблица 5.3. Определение расстояния р с использованием полного и попарного удаления.
Способ учета разрывов
|
Полное удаление
|
Попарное удаление
|
Сравниваемые последовательности
|
1) ACGAAGAAAA
|
1) A–AC–GGAT–AGGA–ATAAA
|
2) ACGAAGAAСA
|
2) AT–CC?GATAA?GAAAAC–A
|
3) ACGAAGAAAA
|
3) ATTCC–GA?TACGATA–AGA
|
Попарное сравнение последовательностей
|
1) и 2)
|
1) и 3)
|
2) и 3)
|
1) и 2)
|
1) и 3)
|
2) и 3)
|
Расстояние р
|
1/10
|
0/10
|
1/10
|
2/12
|
3/13
|
3/14
|
При использовании первого способа не учитываются все разрывы и неинформативные сайты. Таким образом, для сравнения остается только 10 нуклеотидов, и расстояния р между последовательностями 1) и 2), 1) и 3), 2) и 3) оцениваются как 0,1; 0 и 0,1 соответственно. В случае попарного удаления число сравниваемых нуклеотидов для каждой пары будет разным, также как и расстояние р.
Еще один подход для расчета dij после выравнивания нуклеотидных последовательностей – рассматривать разрыв (–) как еще один (5–й) символ (кроме A, T, C, G) и дополнять модели замен соответствующими вероятностями. Недостаток этого подхода заключается в том, что возникновения разрывов считаются независимыми событиями, даже если оно образуют серии.
5.3. Пример – сопоставление оценок эволюционного расстояния.
Рассмотрим пример, представленный в работе М. Нея и С. Кумара. Для оценки эволюционного расстояния между человеком и макакой резус были использованы последовательности гена цитохрома b митохондриальной ДНК. Общее число сравненных нуклеотидов в гене: 375 кодонов x 3=1125.
В таблице 5.4. приведены числа для десяти различных типов нуклеотидных пар двух последовательностей. Численности пар в первой, второй и третьей позициях кодона приведены отдельно. По этим данным были вычислены оценки числа нуклеотидных замен, используя рассмотренные выше модели.
Например, суммарное число различий (nd) по первой позиции всех кодонов двух последовательностей nd=21+22+5+1+5+4=58.
Можно оценить число замен на сайт отдельно для первой позиции кодонов с использованием расстояния р:
Таблица 5.4. Наблюдаемое число различных и идентичных нуклеотидных пар между митохондриальными генами цитохрома b человека и макаки резус.
|
Транзиции
|
Трансверсии
|
Идентичные пары
|
nd
|
Сумма
|
Позиция в кодоне
|
TC
|
AG
|
TA
|
TG
|
CA
|
CG
|
TT
|
CC
|
AA
|
GG
|
|
(n)
|
Первая
|
21
|
22
|
5
|
1
|
5
|
4
|
68
|
93
|
100
|
56
|
58
|
375
|
Вторая
|
20
|
3
|
6
|
1
|
0
|
2
|
140
|
87
|
71
|
45
|
32
|
375
|
Третья
|
60
|
16
|
6
|
5
|
49
|
2
|
11
|
122
|
102
|
2
|
138
|
375
|
Суммарно
|
101
|
41
|
17
|
7
|
54
|
8
|
219
|
302
|
273
|
103
|
228
|
1125
|
Дисперсия ошибки оценки :
Среднеквадратическая ошибка вычисляется как:
Также вычисляются значения для второй и третьей позиций кодонов. Аналогично – для d в предположении справедливости каждой из 4–х моделей таблицы 5.2.
В таблице 5.5. приведены оценки p и d.
Таблица 5.5. Оценки числа замен на сайт в процентах со среднеквадратическими ошибками.
Позиция в кодоне
|
Расстояние
|
Модель
Джукса– Кантора
|
Модель Кимуры
|
Модель Таджимы–Нея
|
Модель Тамуры–Нея
|
Первая
|
15,5±1,9
|
17,3±2,4
|
17,8±2,5
|
18,0±2,6
|
17,9±2,5
|
Вторая
|
8,5±1,4
|
9,1±1,6
|
9,2±1,7
|
9,2±1,7
|
9,3±1,7
|
Третья
|
36,8±2,5
|
50,6±4,9
|
52,3±5,4
|
66,5±9,4
|
87,9±3,9
|
Видно, что наименьшее значение р получено для второй позиции кодона, а наибольшее – для третьей. Это свидетельствует о том, что синонимичные замены в основном происходят в третьей позиции. Для второй позиции оценки числа нуклеотидных замен, полученные разными методами, почти совпадают. Самое большое значение dij для третьей позиции было получено по модели Тамуры–Нея. Оно больше расстояния р более чем в два раза и значительно превышает другие расстояния, что связано как максимально подробным учетом характеристик мутаций, так и с особенностью эволюции цитохрома с.
Вопросы:
-
Перечислите основные типы мутационных изменений последовательностей ДНК без изменения групп сцепления.
-
Что такое транзиции, трансверсии, синонимичные и несинонимичные замены, нонсенс мутации?
-
В чем сложность моделирования процессов эволюции в связи с использованием частот нуклеотидов и кодонов в ДНК?
-
Что такое эволюционное расстояние и для чего его можно использовать?
-
Какими способами можно оценить различия между двумя нуклеотидными последовательностями равной длины при сравнении двух сортов растений?
-
Как можно оценить величину R при сравнении двух близких последовательностей?
-
В чем отличие разных моделей оценки эволюционных расстояний?
-
Опишите модель учета нуклеотидных различий между полиморфными формами.
-
Опишите способы учета разрывов при оценке эволюционных расстояний.
6. Молекулярная филогенетика.
Филогенетика изучает эволюционные связи между организмами (формами). Молекулярная филогенетика – это изучение филогенеза путем анализа нуклеотидных и аминокислотных последовательностей, то есть моделирование и анализ эволюционных процессов на молекулярном уровне. Филогенетические связи сравниваемых форм можно представить в виде так называемых филогенетических деревьев, отражающих графически их генетическую близость и общность происхождения.
Раньше для построения филогенетических деревьев использовались классические методы сравнительной физиологии и сравнительной морфологии современных и ископаемых организмов. Но генетические изменения морфологических и физиологических признаков слишком сложны для количественного анализа. Изучение ископаемых остатков тоже не может дать полной информации об эволюции. Поэтому результаты анализа часто оказывались противоречивыми.
Благодаря достижениям молекулярной генетики появилась возможность изучать эволюционные связи между организмами сравнивая их ДНК. Преимущество этого подхода состоит в том, что ДНК подходит для сравнения форм любых групп организмов (бактерии, растения, животные), что невозможно при классическом подходе. Кроме того, эволюционные изменения ДНК носят довольно регулярный характер, поэтому для их описания можно применить математические модели. Еще одно преимущество использования ДНК состоит в том, что геномы организмов, состоящие из длинных нуклеотидных последовательностей, содержат намного больше филогенетической информации, чем морфологические признаки.
Если идентифицировать гены, отвечающие за формирование определенного признака и изучить их эволюционные изменения, то иногда удается выявить мутационные изменения, которые привели к появлению этого признака. Возможно восстановление филогенетического дерева не только для сравнения родства видов, но и для различных аллелей внутри одного вида. Кроме того, филогенетический анализ полиморфизма аллелей может выявить размер генетического обмена между популяциями, другими формами, сортами и т.п.
6.1. Филогенетические деревья.
Итак, эволюционные отношения между генами или формами можно представить в виде филогенетического дерева. Каждое дерево состоит из так называемых узлов и ветвей, соединяющих узлы. Различают наружные (терминальные) и внутренние узлы. Наружные узлы обозначают таксоны или другие формы вне рассмотрения, а внутренние узлы объединяют родственные таксоны среди сравниваемых. Ветви также бывают наружными и внутренними. Длина ветви численно характеризует изменения, которые произошли между таксонами в процессе эволюции или селекции.
Все филогенетические деревья можно разделить на две категории: деревья с корнем и деревья без корня. Корень – это общий предок всех рассматриваемых форм. Соответственно, для деревьев с корнем подразумевается наличие какой–либо априорной информации об общем предке сравниваемых форм, а для деревьев без корня – отсутствие данных о таком предке.
Характер ветвления филогенетического дерева называется его топологией. Построенное дерево можно представить в виде кладограммы или филограммы. На кладограмме представлена только топология, а длина ребер игнорируется. На филограмме длина ребер пропорциональна эволюционному расстоянию между узлами.
Большинство методов филогении рассчитаны на бинарные деревья. У бинарного дерева каждая эволюционная ветвь может делиться лишь на две дочерние.
Даже для небольшого числа m – сравниваемых аллелей, организмов, форм или таксонов существует целый набор потенциальных деревьев (топологий) с корнями и без (табл. 6.1). Например, для четырех таксонов (m=4) существует 15 топологий для деревьев с корнями и 3 для деревьев без корней (рис 6.1).
Табл. 6.1 Показатели, характеризующие бинарные деревья с корнем и без для m таксонов.
Показатель
|
Бинарное дерево с корнем
|
Бинарное дерево без корня
|
Число возможных топологий
|
|
|
Общее число ветвей
|
2m–2
|
2m–3
|
Число внутренних ветвей
|
m–2
|
m–3
|
Общее число узлов
|
2m–1
|
2m–2
|
Число внутренних узлов
|
m–1
|
m–2
|
a
a
a
a
a
b
b
b
b
b
c
c
c
c
c
d
d
d
d
d
a
a
a
a
a
b
b
b
b
b
c
c
c
c
c
d
d
d
d
d
a
a
a
a
a
b
b
b
b
b
c
c
c
c
c
d
d
d
d
d
a
a
a
b
b
c
c
d
b
d
c
d
Рис. 6.1 Возможные топологии деревьев с корнями (первые 15) и без для 4 таксонов (a, b, c, d).
Хорошо видно, что с ростом m число возможных топологий быстро возрастает. Так, при m=10 существует 34459425 топологий бинарных деревьев с корнем и 2027025 бинарных деревьев без корня. И только одна из всех топологий является истинной. Понятно, что для больших значений m нахождение истинной единственной топологии, то есть установление истинного родства сравниваемых форм является трудноразрешимой генетико–статистической задачей.
6.2. Деревья видов и деревья генов.
Филогенетическое дерево, отражающее эволюционную историю группы видов (популяций, сортов и т.п.), называют деревом видов или популяционным деревом. Для этого дерева время расхождения между двумя видами соответствует моменту наступления их репродуктивной изоляции. Но дерево, построенное для видов на основе одного гена (дерево гена), может не соответствовать дереву видов. Так, если локус полиморфен, то расхождение генов обычно происходит раньше, чем расхождение популяций или видов, и топология дерева генов может отличаться от топологии дерева видов (рис 6.2). Но возможна и обратная ситуация, когда локус начинает дивергировать вследствие видообразования.
На рисунке 6.2. представлены три возможных варианта деревьев генов для трех видов (X, Y, Z) при наличии полиморфизма и не противоречащее им единственное видовое дерево. Прямоугольники А и В обозначают предковые виды, а X, Y, Z – ныне существующие виды.
Топология (но не время расхождения) деревьев гена a, b и видового дерева d совпадают, а топология дерева c отличается от дерева d. Показано, что для близкородственных видов или внутривидовых популяций дерево видов может достаточно часто отличаться от дерева гена. Достоверное дерево видов (d) для подобных ситуаций можно получить, анализируя аллельные варианты большого числа независимо эволюционировавших, то есть не сцепленных локусов. Также следует отметить, что короткие последовательности могут привести к неправильной топологии дерева гена. Это связано с тем, что аминокислотные и нуклеотидные замены носят случайный характер, и число замен в ветви, ведущей к Z на топологиях а и b, может быть случайно меньше, чем в ветви, ведущей к X или Y. Итак, подобных ошибок можно избежать, анализируя достаточно длинные аминокислотные или нуклеотидные последовательности нескольких локусов.
(а) (b) (c) (d)
А
А
А
А
В
В
В
В
X Y Z X Y Z X Y Z
X Y Z
Рис 6.2 Возможные деревья генов при возникновении полиморфизма в локусе (a, b и c) и видовое дерево (d) для видов X, Y, Z. Пояснения в тексте.
При сравнительном анализе нуклеотидных и аминокислотных последовательностей возникла необходимость разделения гомологичных последовательностей на ортологичные и паралогичные.
Гомологичные последовательности называют ортологичными, если к их разделению привел процесс видообразования. То есть, если ген существует у некоего вида, который дивергирует с образованием двух видов, то копии этого гена у дочерних видов называются ортологами. Гомологичные последовательности называют паралогичными, если к их разделению привело удвоение гена. То есть, если в пределах одного организма вида–предка в результате хромосомной мутации произошло удвоение (дупликация) гена, то его копии называют паралогами.
Ортологи обычно выполняют идентичные или сходные функции. Однако это не всегда справедливо в отношении паралогов. Ввиду отсутствия давления отбора на одну из копий гена, подвергшегося удвоению, эта копия получает возможность беспрепятственно мутировать далее, что может привести к возникновению новых функций.
Одна из проблем биоинформатики состоит в следующем. Когда геномы двух видов секвенированы и обнаружены гомологичные гены, невозможно сразу сделать вывод о том выполняют ли эти гены сходную функцию, поскольку они могут оказаться паралогами, функции которых дивергировали. Если вывод о функциях сделать удалось и необходимо восстановить филогению видов, несущих гомологичные гены, то используются ортологичные гены, поскольку именно они отражают процесс видообразования. Но если требуется определить филогению событий дупликации, то следует строить филогению паралогов.
Достарыңызбен бөлісу: |