Смиряев а. В., Панкина л. К. Основы биоинформатики


Метод максимального правдоподобия (ML)



бет9/11
Дата11.07.2016
өлшемі8.87 Mb.
#192412
түріУчебное пособие
1   2   3   4   5   6   7   8   9   10   11

Метод максимального правдоподобия (ML).

В статистике этот метод широко используется, когда можно построить так называемую функцию правдоподобия от неизвестных параметров. Затем подбирают значения параметров, доставляющие максимум этой функции. Впервые метод максимального правдоподобия в филогенетическом анализе применили Кавалли–Сфорца и Эдвардс (1967). В молекулярной филогенетике разработано несколько разных вариантов применения метода максимального правдоподобия. В любом из них выбирается топология, для которой вероятность получения имеющихся экспериментальных данных максимальна. В качестве искомых параметров рассматриваются длины ветвей для каждой топологии.

Рассмотрим на примере как для заданной топологии строят функцию правдоподобия по имеющимся нуклеотидным последовательностям. Пусть даны 4 таксона (1, 2, 3, 4). Длина 4–х последовательностей равна п. Рассмотрим сайт с номером k. Обозначим нуклеотиды в сайте k для 4–х последовательностей как х1, х2, х3 и х4 соответственно. Для 4–х таксонов можно построить 3 дерева без корня как на рис 6.7. Рассмотрим одно из них (рис. 6.9).

Здесь vl – ожидаемое число нуклеотидных замен для ветви l (то есть длина ветви).


1


3

v1

v3


v5


5

6

v2

v4

2


4

Рис. 6.9. Заданная топология для 4–х таксонов.


Нуклеотиды, которые находились в узлах 5, и 6 неизвестны (А, Т, С или G). Обозначим их как х5 и x6. Пусть Pij(t) – это вероятность замены в данном сайте нуклеотида i, который был там в момент времени 0, на нуклеотид j за период времени t. i и j – любые из четырех нуклеотидов А, Т, С или G. Поскольку в методе ML допускается, что скорость замен (rl) может варьировать по l – т.е. для разных ветвей, то за время t ожидаемое число замен для ветви l можно оценить как vl = rltl.

В методе ML длины ветвей vl рассматриваются как неизвестные параметры и оцениваются максимизацией функции правдоподобия для данного набора нуклеотидов в сайте. Построим функцию правдоподобия для сайта k в предположении обратимости нуклеотидных замен. Это означает, что на интервале времени 0–t процесс замен происходит с одинаковой скоростью от 0 к t и от t к 0. Поэтому можно предположить, что эволюция (замены) началась в любом узле. Предположим, что эволюционные изменения начались с узла 5 (рис. 6.9). Тогда функция правдоподобия для сайта k будет иметь вид произведения вероятностей замен во всех пяти ветвях:



lk=gx5Px5x1(v1)Px5x2(v2)Px5x6(v5)Px6x3(v3)Px6x4(v4).

где gx5 – частота нуклеотида x5 во всех (четырех анализируемых) последовательностях длиной n.

Поскольку x5 и х6 неизвестны, то функция правдоподобия вычисляется как сумма вероятностей – по всем 4–м возможным значениям нуклеотидов в узлах 5 и 6. То есть,

Пока мы рассмотрели только сайт k. Необходимо рассмотреть все сайты, в том числе постоянные. Функция правдоподобия (L) для всей нуклеотидной последовательности равна произведению Lk для всех n сайтов. Логарифм функции правдоподобия для всего дерева равен



Теперь возможно максимизировать lnL, подбирая значения vl. Это можно сделать методом Ньютона, или другими численными методами. Максимизируя lnL, получим оценки длин ветвей (vl) для данной топологии. В нашем примере из 4–х таксонов дерево ML – это одна из 3–х возможных топологий (деревья без корня на рис.6.1.), для которой значение ML= lnL максимально.

Поскольку поиск деревьев ML для большого числа таксонов требует много машинного времени, то были предложены различные эвристические алгоритмы поиска.

Проблема метода ML заключается в подборе топологии, так как функция правдоподобия не включает параметры топологии. Следовательно, максимизируя функцию правдоподобия, мы никак не оцениваем саму топологию, а просто выбираем топологию, для которой эта функция максимальна. При этом предполагаем, что эта топология с разумными оценками длин ветвей скорее всего будет правильной. Но такое предположение не обязательно выполняется. На самом деле, если скорость нуклеотидных замен значительно варьирует для разных ветвей, то можно выбрать неправильную топологию, даже для большого числа рассматриваемых сайтов (n).


6.4. Оценка достоверности реконструкции филогенетического дерева.

После построения филогении необходимо оценить достоверность полученного дерева. Чаще всего для этого используют бутстреп тест.

Пусть даны несколько нуклеотидных последовательностей в виде матрицы Xij:

х11, х12, х13,…,х1n

х21, х22, х23,…,х2n

………


xm1, xm2 ,xm3,…,xmn,
где хij – нуклеотид последовательности i (строка) в сайте j (столбец);

m – число последовательностей (например из m таксонов);

n – длина последовательностей.

Сначала каким–либо методом по этим последовательностям строится филогенетическое дерево для этих таксонов, достоверность которого необходимо оценить. Бутстреп тест состоит в следующем. Формируется выборка объема n: выбирают случайным образом, но с возвращением, n столбцов матрицы Xij. Отметим, что поскольку выборка столбцов осуществляется с возвращением, в ней могут оказаться повторяющиеся столбцы. Это новый набор m – последовательностей ДНК длиной n, который снова используется для построения филогении тем же методом. Топология нового полученного дерева сравнивается с оригинальной. Такая процедура повторяется несколько сот раз и вычисляется процент случаев совпадения каждого ветвления новых деревьев с оригинальной. Эта величина называется доверительной вероятностью бутстрепа (или бутстреп–поддержкой) и обозначается РВ. Попутно в процессе бутстреп тестирования получаем сотни оценок для каждого dij – эволюционного расстояния, используемого при повторных построениях филогении. Эти оценки можно использовать для вычисления дисперсий ошибок dij, что важно, например, для модели Тамуры–Нея, где аналитическая оценка дисперсии затруднительна.

Поскольку в бутстреп тесте дерево строится для каждой новой выборки, общее время тестирования становится существенным. Для деревьев NJ этот тест обычно занимает меньше минуты, но требует много времени для деревьев ML. Для деревьев максимума парсимонии лучше сначала получить дерево консенсуса и проверять достоверность внутренних ветвей уже этого дерева.
6.5. Пример – сопоставление методов построения деревьев.

Рассмотрим пример, представленный в работе М. Нея и С. Кумара (2004). На рисунке 6.10 показан фрагмент (896 нуклеотидов) митохондриальной ДНК человека, шимпанзе, гориллы, орангутанга и гиббона.





Рис.6.10. Фрагмент (896 нуклеотидов) митохондриальной ДНК человека, шимпанзе, гориллы, орангутанга и гиббона. Точки обозначают совпадение с первой строкой таблицы. Последовательность орангутанга содержит делецию в позиции 560, а у гиббона – в 501. Данные GenBank.


По данным рис. 6.10 получена таблица 6.9.
Таблица 6.9. Число нуклеотидных замен на сайт (d), рассчитанное по модели Кимуры.




Человек

Шимпанзе

Горилла

Орангутанг

Шимпанзе

0,095±0,011










Горилла

0,113±0,012

0,118±0,013







Орангутанг

0,183±0,016

0,201±0,018

0,195±0,017




Гиббон

0,212±0,018

0,225±0,019

0,225±0,019

0,222±0,018

Используя оценки этих расстояний, получены следующие деревья (рис. 6.11).


Человек

0,1

0,48


Шимпанзе

0,39

0,48

90


Горилла

0,58

100


Орангутанг

0,97


1,24


Гиббон

А. Дерево, построенное методом UPGMA


Человек

0,08

0,42


Шимпанзе

0,39

0,54

71


Горилла

0,6

100


Орангутанг

0,97


1,254


Гиббон

В. Дерево, построенное методами ME и NJ

Рис. 6.11. Филогенетические деревья, построенные разными методами расстояний. Величины бутстрепа подчеркнуты. Значения расстояний умножены в 10 раз (dх10).


6.6. Программы, используемые при построении филогении.

В настоящее время разработано множество компьютерных программ по филогенетике.

Сайт под названием Phylogeny Programs, находящийся по адресу: http://evolution.genetics.washington.edu/phylip/software.html содержит программы по филогенетике. На этом сайте представлен перечень из 317 программ. Этот перечень содержит ссылки к конкретным программам и сортирует их различными способами (например, по используемым методам).

Наиболее часто используемыми пакетами программ являются:

PHYLIP (адрес: http://evolution.genetics.washington.edu/phylip.html);

PAUP*(адрес: http://paup.csit.fsu.edu/);

MEGA (адрес:http://www.megasoftware.net).
Вопросы:


  1. Дайте определение молекулярной филогенетики. В чем состоит преимущество использования ДНК для изучения эволюционных связей между различными организмами по сравнению с классическими методами сравнительной физиологии и сравнительной морфологии?

  2. Назовите основные составляющие филогенетического дерева.

  3. Что такое дерево вида и дерево гена? Приведите примеры.

  4. Приведите определение ортологичных и паралогичных последовательностей; какие из них отражают процесс видообразования?

  5. Перечислите основные статистические методы построения филогенетических деревьев.

  6. Приведите основные эмпирические правила – рекомендации для выбора меры расстояния при построении филогении.

  7. Опишите алгоритм невзвешенного парно–группового метода расстояний. На каких предположениях он основан?

  8. Чем отличается стандартный метод наименьших квадратов от взвешенного?

  9. В чем отличие метода ME от NJ?

  10. Какие предположения используются для построения филогении методом максимальной парсимонии?

  11. Какие сайты называют информативными для парсимонии?

  12. Как определяется длина дерева (L) в методе максимальной парсимонии?

  13. Что такое дерево консенсуса? Перечислите их типы.

  14. Изложите суть метода максимального правдоподобия.

  15. Что такое бутстреп тест и для чего его проводят?


7. Примеры использования рассмотренных моделей и методов.

  1. В работе Х.Лин и др. (2006) был изучен гомолог гена липазы – липолитического фермента, участвующего в обмене жиров растений. Для этого клонировали полноразмерную кДНК гена BnLIP1, гомологичного гену липазы. В геноме рапса ген BnLIP1 представлен несколькими копиями. Нуклеотидная и производная аминокислотная последовательности гена BnLIP1 из проростков Brassica napus показаны на рисунке 7.1. Затем был проведен анализ этой последовательности. В генетических базах данных было обнаружено два гомолога кДНК BnLIP1. Производная аминокислотная последовательность BnLIP1 показала характерные особенности GDSL семейства липаз.

На рисунке 7.2. показано множественное выравнивание аминокислотных последовательностей четырех участков белка BnLIP1 с другими гомологичными липазами, найденными в GenBank. Здесь видны пять консенсусных последовательностей FGDSXXDTGNN, TGRFSNGRXXXDFI, GXND, LYDXGARXFXVXGXXPXGCXP и CXNPXXYVFWDXXHPTEKA в блоках I – V (блок IV не показан на рис. 7.2).

Рис. 7.1. Нуклеотидная и производная аминокислотная последовательности гена BnLIP1 из проростков Brassica napus (№ доступа в генбанке AY870270). Полужирным шрифтом выделены кодон инициации ATG и стоп–кодон TGA (4-я строка снизу), подчеркнут сигнал полиаденилирования AATAA.


Рис. 7.2. Множественное выравнивание аминокислотных последовательностей четырех участков белка BnLIP1 с другими гомологичными липазами.


AtLIP из Arabidopsis thaliana (AAG51758), OsLIP из Oryza sativa (AAM22723), AtENS (ранний белок клубеньков) из A. thaliana (NP189434), AtEXL1–6 (внеклеточная липаза 1–6) из A. thaliana (NP974149, NP565121, NP177718, NP177719, NP565122, NP177721), Hbpre–EST (предшественник липазы/эстеразы) из Hevea brasiliensis (Q7Y1X1), AtGDSL–LIP из A. thaliana (NP174185), OsGDSL–LIP из O. sativa (AAP05801) и CrGDSL–LIP из Chenopodium rubrum (AAP55714). Аминокислоты (Ser–41, Asp–345 и His–348 предполагаемой каталитической триады) отмечены черными треугольниками, консервативные остатки выделены черным (полная идентичность) или серым. Консервативные блоки отмечены над выравниванием.

Для филогенетического анализа использовали программы ClustalX, MEGA (версия 2.1) и метод объединения соседей (NJ). Результат филогенетического анализа липаз растений представлен на рисунке 7.3.


Рис. 7.3. Филогенетические взаимоотношения липаз растений.


Липаза BnLIP1 отмечена черным квадратиком. Справа представлена классификация липаз. MtENO8 – ранний белок клубеньков из Medicago truncatula; Mspre–ENOD8 – внеклеточный предшественник липазы ENOD8 из M. sativa; RcLIP1, 2 – липазы 1, 2 липидных телец RcOBL из Ricinus communis; DcLIP – липаза из Dianthus caryophyllus, LeLID1 – липаза томатов, гомологичная AtDAD1.

Филогенетический анализ позволил разделить липазы растений на 4 группы. Липазы групп I–III, содержащие GDS(L) мотив, принадлежат к семейству GDSL липаз, а белки группы IV относят к семейству GXSXG липаз. Экспрессия белков группы I характерна для ранних клубеньков бобовых или корней различных видов растений, белки группы II обнаружены в различных тканях и органах, а большинство белков, принадлежащих к группе III экспрессируется в оболочке пыльцевых зерен.




  1. В работе Наумова Д.Г. (2004) проводили филогенетический анализ α–галактозидаз семейства GH27. Были проанализированы аминокислотные последовательности из различных организмов, включая растения. Для поиска белков – гомологов α–галактозидаз использовали программы PSI–BLAST и Genomic BLAST pages. При скрининге базы данных с помощью программы PSI–BLAST использовали пороговое значение величины Е (Е–value) для включения последовательности в следующую итерацию, равное 0,01 или 0,001. Множественное выравнивание проводили с использованием программы – редактора BioEdit. Результаты множественного выравнивания (после удаления наиболее вариабельных участков последовательностей) использовали для построения филогенетических деревьев с помощью программы PROTPARS (метод максимальной парсимонии, МР) и NEIGHBOR (метод NJ) из пакета PHYLIP. Статистическую надежность узлов оценивали с использованием бутстреп теста.




  1. В работе Лысенко Е.А. (2006) проводился анализ эволюции семейства генов Sig, кодирующих сигма–факторы растений. Сигма–факторы (или сигма субъединицы входят в состав мультисубъединичной РНК – полимеразы пластид водорослей и растений и обеспечивают промоторную специфичность этого фермента. РНК–полимеразы являются основным транскрипционным ферментом хлоропластов. У растений сигма субъединицы кодируются семейством ядерных генов Sig, состоящим из 5–6 генов.

Сравнение аминокислотных последовательностей осуществляли с использованием модифицированного алгоритма CLUSTALW. Для построения филогенетического дерева применили метод объединения соседей (NJ).

Множественное выравнивание для сравнения консервативных С–концевых участков Sig5 растений с соответствующими последовательностями сигма–факторов цианобактерий SigA и SigF представлено на рисунке 7.4.


Рис. 7.4 Сравнение консервативных С–концевых участков Sig5 растений с соответствующими последовательностями сигма–факторов цианобактерий SigA и SigF.


Белым шрифтом на черном фоне даны аминокислотные остатки (а.о.) идентичные и/или с большим сходством, черным шрифтом на сером фоне – а.о. со слабым сходством, черным шрифтом на белом фоне – несходные а.о. Знак * означает большее сходство Sig5 с SigA или с SigF, # – участки, где сходство SigA и SigF между собой больше, чем с Sig5 растений. Цифры указывают положение крайнего левого а.о. в последовательности соответствующего сигма–фактора. An – Anabaena PCC7120, Sy – Synechocystis PCC6803, So – Synechococcus PCC 7002, Pp – P. patens, At – A. thaliana, Os – O. sativa.

На основании сравнения аминокислотных последовательностей белков и сайтов локализации интронов сделан ряд предположений и предложена схема эволюции этого семейства генов.


8. Предсказание пространственной структуры РНК.

Одной из задач биоинформатики является предсказание вторичной структуры РНК.

Напомним, что существует несколько типов РНК. Это мРНК, рРНК и тРНК. С их помощью осуществляется процесс биосинтеза белка. Селективное взаимодействие между различными РНК имеет фундаментальное значение и играет важную роль в регуляции экспрессии генов и жизнедеятельности всех организмов. Примерами такого взаимодействия является образование комплексов мРНК – тРНК, рРНК – мРНК, тРНК – рРНК в процессе трансляции. Кроме перечисленных выше выделяют и другие виды РНК. В частности, «малые РНК», содержащие до 300 нуклеотидов. Обычно они ассоциированы с одним или несколькими белками и представлены в клетке в виде рибонуклеопротеидов. Существуют РНК, которые обладают высокоспецифической каталитической активностью. Они были названы рибозимами. Интерес представляют также вирусные РНК.

Известно, что регуляция активности генов растений осуществляется на уровне транскрипции, сплайсинга мРНК, трансляции и деградации белков. В последнее время в эту регуляторную сеть был включен новый компонент: регуляция, осуществляемая микроРНК (миРНК). миРНК – это одноцепочечные РНК длиной 20–24 нуклеотидa, которые комплементарно или частично комплементарно связываются с мРНК и приводят к ее разрушению или ингибированию трансляции с этой мРНК. У растений миРНК играют важную роль в установлении сложной пространственной и временной регуляции активности генов, необходимой для развития организма, и наряду с этим участвуют в ряде процессов функционирования на взрослой стадии. Первые миРНК у растений были открыты путем клонирования малых РНК у арабидопсиса и были выделены в отдельный класс. Данные о последовательностях зрелых миРНК, их предшественниках и локализации их генов аккумулируются в базе данных РFAM.

С точки зрения наиболее энергетически сильных связей структуру молекулы РНК можно описывать иерархически. Первичная структура молекулы описывает ее как цепочку нуклеотидов, последовательно соединенных наиболее сильными фосфодиэфирными связями. Вторичная структура РНК – это структура, которая образуется спаренными основаниями на однонитевой молекуле РНК. Взаимодействие между элементами вторичной структуры РНК обеспечивает формирование биологически активной трехмерной структуры РНК. Третичная структура молекулы РНК – это пространственная форма, которую принимает ее молекулярная цепочка в пространстве под воздействием Уотсон–Криковских и других более слабых потенциалов. Четвертичной структурой называется форма молекулы, которую она приобретает, связываясь в комплекс с другими биомолекулами.

Первичная структура у молекулы РНК одна, а потенциально возможных вторичных (третичных, четвертичных) структур много. Известно, что структура РНК определяет ее функцию.





Достарыңызбен бөлісу:
1   2   3   4   5   6   7   8   9   10   11




©dereksiz.org 2024
әкімшілігінің қараңыз

    Басты бет