Вопросы:
-
Назовите основные особенности генов эукариот.
-
Какие трудности возникают при анализе геномов растений?
-
Перечислите основные методы предсказания структуры генов эукариот.
5. Анализ генетических расстояний.
5.1. Эволюционные замены в последовательностях ДНК.
Рассмотрим типы замен в нуклеотидных последовательностях, возникающих в процессе эволюции. Замены делятся на два класса: транзиции и трансверсии. К транзициям относят замены одного пурина на другой пурин (аденин ↔ гуанин) или одного пиримидина на другой пиримидин (тимин ↔ цитозин). Все остальные варианты нуклеотидных замен называются трансверсиями. Для белок–кодирующих генов замены, приводящие к синонимичным кодонам, называются синонимичными, а при замене кодона на несинонимичный кодон – несинонимичными или аминокислотными замещениями. Мутации, приводящие к появлению стоп–кодонов (UAA, UAG, UGA), называются нонсенс–мутациями. В связи с известными свойствами генетического кода синонимичные замены возможны только в третьей и, реже, в первой позициях триплета. Все нуклеотидные замены во второй позиции либо несинонимичны, либо приводят к стоп – кодонам.
В биоинформатике весьма важно, какие упрощающие модельные предположения используются при изучении процесса эволюции. Если предположить, что кодоны имеют равную частоту в ДНК, нет влияния отбора и вероятность любой замены одинакова для каждого нуклеотида, то соотношение синонимичных, несинонимичных и нонсенс–мутаций, как определил М. Ней, должно быть 25%, 71% и 4%, соответственно. Конечно, на практике это соотношение не выполняется, в частности, для районов, находящихся под действием отбора.
Нуклеотидная последовательность может или кодировать или не кодировать белок. Некодирующие последовательности, которые составляют большую часть ДНК, могут быть разных типов: промоторы, повторы, транспозоны и др. Частоты нуклеотидных замен различны для разных районов ДНК. Если бы появление одного из четырех нуклеотидов в любой позиции последовательности было равновероятно, то, при отсутствии отбора в белок–кодирующих последовательностях, триплеты, кодирующие одну и ту же аминокислоту, встречались бы в ДНК с равной частотой. Но в реальности существуют механизмы, вызывающие «перекос» частот нуклеотидов и кодонов в ДНК.
В частности, одна и та же аминокислота кодируется кодонами с разной частотой – некоторые кодоны используются чаще других. Так, аргинин почти всегда кодируется GGU и GGC, а кодоны CGA, CGG, AGA и AGG встречаются редко. Подобные предпочтения при закреплении кодонов в ДНК, кодирующих аминокислоты, показаны для многих про– и эукариот. Например, у E.coli и дрожжей для генов с высоким уровнем экспрессии существует корреляция между частотами встречаемости кодонов в ДНК и концентрацией соответствующих тРНК в клетке. То есть концентрация тРНК, соответствующая часто используемому кодону в клетке, больше, чем концентрация тРНК, соответствующая редко используемому кодону. Однако это правило не работает для генов с умеренным уровнем экспрессии. В этом случае вероятность выбора разных кодонов в кодирующих участках ДНК для одной аминокислоты практически одинакова.
Возможно, нуклеотидные замены происходят более или менее равновероятно, но у активно экспрессирующихся генов кодоны, не соответствующие избыточной тРНК, удаляются отбором, как неэффективные для синтеза белка. В умеренно экспрессирующихся генах давление отбора не настолько сильно, поэтому появляется возможность использования разных кодонов.
На предпочтение в использовании кодонов кроме избыточности тРНК также оказывает влияние направленное мутационное давление. Показано, что относительная концентрация нуклеотидов G и С (GC содержание) у бактерий варьирует в широких пределах от 25% до 75%. Предполагается, что такая изменчивость возникает главным образом благодаря различиям между скоростями некоторых мутаций в нуклеотидных последовательностях разных видов. Например, у бактерии Mycoplasma capricolum мутационное давление GC→AT настолько велико, что в третьей молчащей позиции кодона почти всегда находятся нуклеотиды А или Т.
В настоящее время подобных сведений для растений и животных недостаточно, поэтому обычно при моделировании процессов эволюции используют простые «усредненные» предположения.
5.2. Методы оценки расстояний.
Рассмотрим статистические методы для расчета так называемых эволюционных расстояний между двумя формами (популяциями, видами и т.п.) через частоту замен нуклеотидов в двух однотипных выравненных последовательностях, извлеченных из этих форм. Для простоты предположим, что разрывов (–) нет.
Эволюционные расстояния являются основой для построения филогении и расчета времени расхождения сравниваемых форм. То есть для однотипных нуклеотидных последовательностей 2–х форм (например, один локус с известной функцией), расстояние измеряется количеством замен на сайт. Упрощенно, чем больше замен на сайт обнаружено, тем раньше разошлись две формы в процессе эволюции (концепция молекулярных часов).
Оценки эволюционных расстояний могут быть также использованы при подборе пар сортов для гибридизации. Чем они больше, тем более несходны сорта по общему аллельному составу. Следовательно, их потомство, как ожидается, проявит больший полиморфизм.
Выше упоминалось, что разные типы последовательностей могут эволюционировать по–разному в зависимости от их функции. Кроме того, частоты мутационных событий различны для разных районов ДНК. В кодирующих районах скорость нуклеотидных замен отличается в первой, второй и третьей позициях кодона: она максимальна в третьей позиции и минимальна во второй. Все это желательно учесть при моделировании процесса эволюции.
Для оценки эволюционных расстояний разработано много различных методов. Прежде чем использовать тот или иной метод, необходимо уяснить в каких именно случаях он применяется.
Расстояние р
Различия между двумя нуклеотидными последовательностями равной длины n позволяют оценить так называемое расстояние р, непосредственно через долю (частоту) несовпадений между ними.
где nd – это число различающихся нуклеотидов двух однотипных последовательностей;
Следует подчеркнуть, что истинное эволюционное расстояние теоретически следует оценивать по всему геному двух форм. Из-за ограниченности числа n оценка истинного эволюционного расстояния р несет ошибку выборочности. Дисперсию ошибки оценки вычисляют по формуле
Для вычисления р заменяется на долю .
Оценки р достаточно, например, при сравнении сортов, но не для изучения процесса эволюции. Доля несовпадений (р) лишь приблизительно оценивает частоту замен нуклеотидов на сайт. Иногда необходимо учесть различие частот мутаций разных типов в сравниваемых последовательностях, возможность обратных мутаций и пр.
Рассмотрим две однотипные нуклеотидные последовательности: Х и Y. В любой позиции каждой из них для 4–х оснований (А, Т, С, G) возможны 42=16 разных комбинаций нуклеотидов, которые представлены в таблице 5.1.
Первая буква обозначает нуклеотид последовательности Х, а вторая буква – Y в этой же позиции. Из 16 комбинаций нуклеотидов выделяют четыре пары одинаковых нуклеотидов (АА, ТТ, СС, и GG), четыре пары транзиций (AG, GA, ТС, и CT) и восемь пар трансверсий. Суммарные частоты одинаковых пар в Х и Y обозначим I, частоты транзиций – Р, а частоты трансверсий – Q.
p=P+ Q
Таблица 5.1. Типы пар нуклеотидов, находящихся в одной позиции последовательностей Х и Y, и обозначения частот их встречаемости. Пояснения в тексте.
Нуклеотидная пара
|
Частота
|
Нуклеотидная пара
|
Частота
|
Идентичные нуклеотиды
|
Трансверсии
|
АА
|
I1
|
AT
|
Q 11
|
ТТ
|
I2
|
TA
|
Q 12
|
СС
|
I3
|
AC
|
Q 21
|
GG
|
I4
|
CA
|
Q 22
|
Сумма
|
I
|
TG
|
Q 31
|
Транзиции
|
GT
|
Q 32
|
AG
|
Р11
|
CG
|
Q 41
|
GA
|
Р12
|
GC
|
Q 42
|
TC
|
Р21
|
Сумма
|
Q
|
CT
|
Р22
|
|
Сумма
|
Р
|
Видим, что число трансверсий в два раза больше, чем транзиций. Следовательно, если бы разные нуклеотидные мутантные замены возникали равновероятно, то, для близких последовательностей недавно разошедшихся форм, величина Q была бы в два раза больше Р. Но транзиции, как правило, происходят чаще трансверсий, поэтому Р обычно больше Q. Оценки и можно получить непосредственно при анализе двух сравниваемых последовательностей. Доля транзиций/трансверсий для близких последовательностей оценивается по выборке экспериментальных пар нуклеотидов как
Для многих ядерных генов величина R находится в интервале 0,5 – 2. Дисперсию ошибки оценки вычисляют по формуле
При вычислении вместо R, P и Q используются их оценки. Для небольшого числа нуклеотидов (n) сравниваемых последовательностей дисперсия может быть очень большой.
Кроме того, расстояние р эффективнее использовать для близких последовательностей. Для более удаленных последовательностей эта оценка занижена, так как не учитывает обратные и параллельные мутации. Последние возникают когда у двух разных последовательностей за время их раздельной эволюции одна и та же замена происходит в одном сайте.
Поэтому для более корректных оценок эволюционного расстояния были предложены разные модели. В таблице 5.2 представлены некоторые модели, отличающиеся предположениями о неравных скоростях замещения нуклеотидов.
Таблица 5.2. Некоторые модели вероятностей (скоростей) нуклеотидных замен при точковых мутациях.
|
A
|
T
|
C
|
G
|
A
|
T
|
C
|
G
|
|
Модель Джукса – Кантора
|
Модель Таджимы – Нея
|
A
|
–
|
α
|
α
|
α
|
–
|
αgT
|
αgC
|
αgG
|
T
|
α
|
–
|
α
|
α
|
αgA
|
–
|
αgC
|
αgG
|
C
|
α
|
α
|
–
|
α
|
αgA
|
αgT
|
–
|
αgG
|
G
|
α
|
α
|
α
|
–
|
αgA
|
αgT
|
αgC
|
–
|
|
Модель Кимуры
|
Модель Тамуры – Нея
|
A
|
–
|
β
|
β
|
α
|
–
|
βgT
|
βgC
|
α1gG
|
T
|
β
|
–
|
α
|
β
|
βgA
|
–
|
α2gC
|
βgG
|
C
|
β
|
α
|
–
|
β
|
βgA
|
α2gT
|
–
|
βgG
|
G
|
α
|
β
|
β
|
–
|
α1gA
|
βgT
|
βgC
|
–
|
В ячейках указана вероятность замены нуклеотида из i–ой строки на нуклеотид из j –го столбца. gA, gT, gC, gG – частоты нуклеотидов A, T, C, G в двух сравниваемых формах. При получении оценок их заменяют на соответствующие частоты в двух сравниваемых последовательностях.
Модель Джукса – Кантора.
Эта модель для оценки эволюционного расстояния по нуклеотидным заменам была предложена в 1969 году. В ней предполагается одинаковая частота нуклеотидных замен для разных сайтов: вероятность замены данного нуклеотида на один из трех возможных за фиксированный промежуток времени постоянна и равна α (табл. 5.2).
Можно показать, что ожидаемое число (d) произошедших нуклеотидных замен на сайт в рамках данной модели выражается через р следующим образом:
Напомним, что р – доля разных нуклеотидов в последовательностях X и Y.
Ограничение параметра d: р < . Выборочная дисперсия ошибки оценки вычисляется по формуле:
То есть эволюционное расстояние в этой и трех других моделях (табл. 5.2.) фактически оценивается по d, но в разных предположениях.
Модель Кимуры.
Поскольку скорость транзиций, как правило, больше, чем трансверсий, то М. Кимура в 1980 г. разработал метод оценки эволюционного расстояния через число нуклеотидных замен на сайт, в предположении, что скорость транзиций отличается от скорости трансверсий.
Пусть α – скорость транзиций на сайт в год; 2β – скорость трансверсий на сайт в год (табл. 5.2). Тогда суммарная скорость замен на сайт в год равна α + 2β.
Ожидаемое число нуклеотидных замен на сайт в рамках этой модели:
= – (1/2)ln(1–2P– Q) – (1/4)ln(1–2 Q)
Значения Р и Q (табл. 5.1.), как отмечено выше, оценивают непосредственно по двум сравниваемым последовательностям X и Y.
Показано, что параметры P и Q связаны с t – временем, прошедшим после дивергенции двух последовательностей следующим образом:
Дисперсию ошибки вычисляют по формуле:
где
Модель Таджимы – Нея (1984).
Здесь учитываются нуклеотидные частоты (gA, gT, gC, gG) в двух сравниваемых формах (табл 5.2). Поэтому модель используют в том случае, когда эти четыре частоты значительно различаются, но в мутационном процессе нет сильно выраженных предпочтений транзиций или трансверсий.
Оценку эволюционного расстояния двух сравниваемых форм через число нуклеотидных замен d на сайт вычисляют по формуле:
где ,
Здесь xij (i < j) – частоты пар нуклеотидов i, j (то есть частоты AT, AG и т.д.) в ДНК двух сравниваемых форм; gi – частоты четырех нуклеотидов: A, T, C, G.
Формула для дисперсии ошибки имеет вид:
Модель Тамуры – Нея (1993 г.).
Эту модель используют, когда нуклеотидные частоты (gA, gT, gC, gG) различаются и есть выраженные предпочтения транзиций или трансверсий, а также содержания GC в последовательностях.
Для этой модели выражение для и оценки дисперсии сложное и вычисляется с помощью программ MEGA и MEGA2.
Учёт нуклеотидных различий между полиморфными формами.
Рассмотренные выше модели оценки числа нуклеотидных замен между двумя последовательностями от разных форм, видов, популяций и т.п. не учитывали их возможный внутренний полиморфизм. Однако, для того, чтобы оценить размах дивергенции ДНК, например, между двумя популяциями эффект их внутреннего полиморфизма необходимо учитывать.
Предположим, что для фрагмента ДНК (локуса) имеется q различных аллелей, и из популяций X и Y выбраны mx и my последовательностей. Пусть и – частоты в выборках i–го аллеля для популяции X и Y соответственно. Среднее количество нуклеотидных замен для случайно выбранной пары аллелей в популяции X (dx – нуклеотидное разнообразие) можно вычислить как
где – оценка числа нуклеотидных замен на сайт между i–м и j–м аллелями. В частности, если все последовательности ДНК в X различны, то = 1/mx.
Нуклеотидное разнообразие для Y оценивается аналогично.
Среднее количество нуклеотидных замен на позицию между аллелями популяций Х и Y вычисляется как
г
^
де – оценка нуклеотидных замен между i–м аллелем из X и j– м аллелем из Y. Или иначе
где – оценка количества нуклеотидных замен между i–ой последовательностью (не аллелем), взятой из популяции X и j–ой последовательностью из популяции Y. Пусть имеется mX и mY последовательностей, взятых из популяций X и Y. Тогда общее количество нуклеотидных замен между двумя популяциями вычисляется по формуле
Дисперсия вычисляется по формуле
Для надежной оценки несходства между полиморфными популяциями или сортами желательно оценивать и усреднять эволюционные расстояния по нескольким локусам.
Достарыңызбен бөлісу: |