Смиряев а. В., Панкина л. К. Основы биоинформатики



бет11/11
Дата11.07.2016
өлшемі8.87 Mb.
#192412
түріУчебное пособие
1   2   3   4   5   6   7   8   9   10   11

Бутстреп тест. Используют, в частности, для оценки достоверности полученного филогенетического дерева. Суть этого теста состоит в следующем. Проводят случайную выборку исходных данных. Например, это случайные номера сайтов в наборе последовательностей ДНК, по которым строится дерево-оригинал. По этой части заново строится дерева тем же методом. Топология нового полученного дерева сравнивается с оригинальной. Такая процедура повторяется несколько сот раз и вычисляется доверительные вероятности бутстрепа – процент случаев совпадения каждой внутренней ветви у дерева-оригинала и новых деревьев.

Вариабельные сайты. Сайты родственных последовательностей, содержащие разные нуклеотиды (или аминокислоты) в изучаемом наборе таксонов.

Ветви. См. Филогенетическое дерево.

Внутренние узлы. Узлы филогенетического дерева, которые объединяют родственные таксоны среди сравниваемых.

Выравнивание. Сопоставление двух и более последовательностей для определения их уровня идентичности с учетом как замен, так и вставок/делеций. Различают локальное (см.), глобальное (см.), парное (см.), множественное (см.), прогрессивное (см.) выравнивания.

Глобальное (полное) выравнивание. Выравнивание нуклеотидных или аминокислотных последовательностей по их полной длине.

Дерево видов. Филогенетическое дерево, отражающее эволюционную историю группы видов (популяций, сортов и т.п.).

Дерево гена. Филогенетическое дерево, построенное на основе наблюдаемой вариабельности одного гена в разных организмах.

Дерево консенсуса. «Обобщенное» дерево – усредненный вариант нескольких реализовавшихся деревьев.

Джукса–Кантора модель. Модель для оценки эволюционного расстояния (ожидаемого числа нуклеотидных замен на сайт) по нуклеотидным (или аминокислотным) заменам в последовательности. В ней предполагается одинаковая частота замен для разных сайтов и равные вероятности разных замен, допускаются обратные замены.

Домен. Это участок аминокислотной последовательности, который является составной частью различных белков и, возможно, обладает собственной функцией. Как правило, доменам свойственна высокая степень консервативности.

Кимуры модель. Это модель оценки эволюционного расстояния через число нуклеотидных замен на сайт, в предположении, что скорость (вероятность) транзиций отличается от скорости трансверсий.

Концепция молекулярных часов. Постоянство скоростей эволюции (мутаций) для разных таксонов.

Корень. Это общий гипотетический ближайший предок всех рассматриваемых форм в филогенетическом дереве (см.).

Локальное (частичное) выравнивание. Выравнивание (см.) части нуклеотидных или белковых последовательностей.



Максимального правдоподобия метод (ML). Этот метод используется , в частности, для построения филогении. Строят так называемую функцию правдоподобия от неизвестных параметров. Затем подбирают значения параметров (длины ветвей для каждой топологии), обеспечивающие максимум этой функции. Метод допускает разную скорость для разных ветвей.

Максимальной парсимонии (экономии) метод (МР). Метод построения филогении, который находит дерево (или деревья), содержащее наименьшее количество замен, необходимых для объяснения различий между изучаемыми таксонами. В нем предполагается, что разные варианты нуклеотидных или аминокислотных замен равновероятны. Метод МР близок по смыслу к МЕ, но способ оценки длины ветвей в МР отличается.

Марковская модель. Статистическая модель, генерирующая последовательности символов (например, цепь символов A, T, C, G в участке ДНК). Вероятности появления каждого следующего из них зависит от одного или нескольких предыдущих и оцениваются в процессе настройки (обучения) модели. Выделяют т.н. классические цепи Маркова и более общие скрытые марковские модели (см.).

Матрицы замен. Эти матрицы содержат оценки частных весов для любой замены одной аминокислоты (или нуклеотида) на другую аминокислоту (или нуклеотид) в процессе эволюции.

Минимума эволюции метод (ME). В этом методе построения филогении для каждой из возможных топологий дерева (см.) вычисляется сумма оценок длин всех его ветвей (S). Рассматриваются все возможные топологии и среди них выбирается топология с наименьшим значением S.

Множественное выравнивание. Это выравнивание набора из трех и более последовательностей одновременно, при котором элементы в одинаковых позициях группируются в колонки.

Наименьших квадратов метод (НК). В широком смысле метод подбора модели, обеспечивающей наименьшую сумму квадратов отклонений реальных данных от прогноза по модели. В узком смысле – метод построения филогении, в котором подбираются длины ветвей и вычисляются ожидаемые расстояния между таксонами, обеспечивающие минимум остаточной суммы квадратов отклонений. Допускает разную скорость эволюции для ветвей филогенетического дерева.

Наружные узлы. Узлы филогенетического дерева (см.), обозначающие таксоны, популяции или другие формы вне рассмотрения.

Невзвешенный парно–групповой метод расстояний (НПГМ или UPGMA). В этом методе построения филогении сначала для каждой пары таксонов согласно выбранной модели замен определяются эволюционные расстояния. Затем применяют кластерный анализ. Предполагается равная длина ветвей, исходящих из одного узла. Метод строит укорененное дерево. Может использоваться для анализа молекулярных данных, если справедлива гипотеза молекулярных часов.

Нейронная сеть. Статистическая модель со структурой, основанной на упрощенной аналогии с биологическими нейронными сетями. Различают однопотоковые (слоистые) нейронные сети, когда сигналы от нейронов предыдущего слоя поступают только следующему, и рекуррентные – нейронам любого слоя. После самонастройки (обучения) нейронная сеть позволяет решать различные задачи классификации и структурирования экспериментальных данных. Используется, в частности, для классификации, предсказания структуры и функции белков, распознавания промоторов и других участков ДНК, моделирования генных сетей и пр.

Нидлмана–Вунша алгоритм. Алгоритм построения оптимального глобального выравнивания двух последовательностей, основанный на методе динамического программирования.

Нуссинов алгоритм. Алгоритм предсказания вторичной структуры последовательности РНК, основанный на методе динамического программирования.

Объединения соседей метод (ОС или NJ). Метод построения филогении, который основан на принципе минимума эволюции. Начальная топология дерева – конфигурация звезды. Затем последовательно разъединяют соседей (см.). В итоге получают наилучшее дерево без корня.

Оптимальное выравнивание. Выравнивание нуклеотидных или белковых последовательностей с самым высоким весом.

Ортологичные последовательности. Гомологичные нуклеотидные или аминокислотные последовательности у двух видов называют ортологичными, если они появились в результате видообразования.

Паралогичные последовательности. Гомологичные нуклеотидные или аминокислотные последовательности у двух видов-потомков называют паралогичными, они появились в результате дупликации у вида-предка.

Парное выравнивание. Выравнивание двух последовательностей.

Полный перебор. Это рассмотрение всех возможных вариантов. Если число таксонов (m) невелико (т < 10), то можно вычислить длины деревьев для всех топологий.

Популяционное дерево (см. дерево видов).

Постоянные сайты. Сайты, содержащие одинаковый нуклеотид (или аминокислоту) для всех консервативных последовательностей анализируемых таксонов, называются постоянными.

Прогрессивное выравнивание. Один из алгоритмических подходов для построения множественного выравнивания. Сначала выбираются две наиболее похожие последовательности, которые выравниваются стандартным алгоритмом парного выравнивания. Это выравнивание фиксируется. Далее выбирается третья последовательность, которая «подравнивается» к первому выравниванию, затем 4–я и т.д. до тех пор, пока не будут выровнены все последовательности.

Профиль. Ряд, состоящий из частот встречаемости нуклеотидов (аминокислот). Частоты оцениваются для каждого сайта по результатам множественного выравнивания родственных последовательностей. Профиль используется, в частности, как основа скрытой марковской модели (см.).

Разрыв. Гэп, прочерк (обозначение (–)), который вводят в выравнивание для компенсации вставки (выпадения) нуклеотидов в одной последовательности относительно другой.

Расстояние р. Нескорректированное эволюционное расстояние. Оценивает различия между двумя последовательностями равной длины через долю (частоту) несовпадений между ними.

Сайт информативный для парсимонии. Сайт, в котором для всех сравниваемых последовательностей есть, по крайней мере, два разных типа нуклеотида, представленные минимум дважды.

Скрытая марковская модель (НММ). В марковских моделях (см.) этого вида вероятности появления каждого символа в последовательности зависят также от т.н. состояния модели. Последнее может изменяться случайно (с определенными вероятностями), но сравнительно редко, переключаясь, таким образом, на генерацию подпоследовательностей разного типа. В биоинформатике методы, основанные на НММ, используют для идентификации различных семейств белков и типов коротких последовательностей ДНК, для выявления последних в длинных экспериментальных последовательностях, а также в методах выравнивания (см.).

Смита–Уотермана алгоритм. Предназначен для построения оптимального локального выравнивания (см.) или их множества.

Соседи. Например, в методе NJ (см.) соседями называются два таксона на дереве без корня, соединенные через один внутренний узел.

Специфичных деревьев поиск. Поскольку число возможных топологий быстро возрастает с ростом числа таксонов (т), то для больших т в методе максимальной парсимонии (см.) длины деревьев можно вычислить только для нескольких наиболее вероятных (специфичных) топологий.

Сравнительный анализ последовательностей РНК. Теоретический метод предсказания вторичной структуры РНК, основанный на анализе множественных выравниваний (см.) семейств родственных РНК.

Таджимы–Нея модель. Используется для оценки эволюционного расстояния двух сравниваемых форм через число нуклеотидных замен на сайт. В ней учитываются нуклеотидные частоты (gA, gT, gC, gG) в последовательностях из двух сравниваемых форм. Модель используют в том случае, когда эти четыре частоты значительно различаются, но в мутационном процессе нет сильно выраженных предпочтений транзиций или трансверсий.

Тамуры–Нея модель. Используют для оценки эволюционного расстояния, когда нуклеотидные частоты (gA, gT, gC, gG) различаются и есть выраженные предпочтения транзиций или трансверсий в последовательностях из двух сравниваемых форм.

Топология. В узком смысле – характер ветвления филогенетического дерева.

Филогенетика молекулярная. Это изучение филогенеза путем анализа нуклеотидных и аминокислотных последовательностей, то есть моделирование эволюционных процессов на молекулярном уровне.

Филогенетическое дерево. Графическое отображение филогенетических связей сравниваемых форм. Каждое дерево состоит из так называемых узлов и ветвей, соединяющих узлы. Различают наружные (см.) (терминальные) и внутренние (см.) узлы. Ветви также бывают наружными и внутренними. Длина ветви численно характеризует изменения, которые произошли между формами в процессе эволюции или селекции.

Функциональная геномика. Направление современной молекулярной биологии и генетики, основной целью которой является изучение реализации наследственной информации, закодированной в геноме (путь от гена к признаку), а основной задачей – предсказание функции генов, реконструкция метаболизма.

Цукера алгоритм. Предназначен для предсказания вторичной структуры одиночной молекулы РНК. Главное предположение состоит в том, что правильная структура РНК в равновесии обладает наименьшей свободной энергией. Эта энергия оценивается как сумма свободных энергий петель, пар оснований и других элементов вторичной структуры.

Штраф за разрыв. Для предотвращения накопления большого числа разрывов в выравнивании при введении очередного разрыва из общего веса выравнивания (см.) вычитается установленный штраф. Различают линейный и аффинный штрафы. Линейный штраф за разрыв – это самый простой вид штрафа, пропорциональный длине разрыва. Аффинный штраф за разрыв состоит из длины разрыва, штрафа за открытие разрыва и за его продолжение.

Содержание

1. Введение…………………………………………………………………. 3

Основные задачи биоинформатики…………………………………... 4

Значение биоинформатики для геномики растений……………….... 6

2. Базы данных……………………………………………………………... 8

3. Выравнивание…………………………………………………………… 13

3.1. Основные определения……….……………………………………. 13

3.2. Матрицы замен……………………………………………………...15

3.3. Штрафы за разрывы…………………………………………........... 18

3.4. Алгоритмы выравниваний…………………………………………. 19

Глобальное выравнивание. Алгоритм Нидлмана–Вунша…........... 20

Локальное выравнивание. Алгоритм Смита–Уотермана………. 25

Выравнивание нуклеотидных последовательностей………........... 27

Множественное выравнивание…………………………………….. 28

Программы серии CLUSTAL.……………………………………. 28

3.5. Программный поиск сходных аминокислотных или нуклеотидных последовательностей………..…………………………………... 32

Пакет программ BLAST ……………………………………………... 32

Принцип работы BLAST …………………………………………….. 35

4. Предсказание структуры генов эукариот…………………………… 36

4.1.Краткие сведения о структуре генов ……………………………. 36

4.2. Методы предсказания структуры генов эукариот………………. 40

5. Анализ генетических расстояний………………………………..…….. 42

5.1. Эволюционные замены в последовательностях ДНК……......... 42

5.2. Методы оценки расстояний………………………..………......... 45

Расстояние р……………………………………………….………... 46

Модель Джукса – Кантора………………………………..………... 49

Модель Кимуры …………………………………………..……….... 49

Модель Таджимы – Нея (1984)………………………..…………... 50

Модель Тамуры – Нея (1993)………………………..…….............. 51

Учет нуклеотидных различий между полиморфными формами.. 51

Интерпретация разрывов при оценке эволюционных расстояний 53

5.3. Пример – сопоставление оценок эволюционного расстояния….. 54

6. Молекулярная филогенетика…………………………………………... 57

6.1. Филогенетические деревья………………………………………… 58

6.2. Деревья видов и деревья генов……………………………………. 60

6.3. Методы построения деревьев…………………………………....... 62

Методы расстояний…………………………………………………. 62

Невзвешенный парно – групповой метод…………………... 64

Метод наименьших квадратов (НК)……………………............ 68

Метод минимума эволюции (ME)……………………………... 73

Метод объединения соседей (ОС или NJ)…………………… 73

Метод максимальной парсимонии (экономии) (МР)……....... 77

Метод максимального правдоподобия (ML).………………. 83

6.4.Оценка достоверности реконструкции филогенетического дерева.85

6.5. Пример – сопоставление методов построения деревьев………… 86

6.6. Программы, используемые при построении филогении……….... 89

7.Примеры использования рассмотренных моделей и методов………... 90

8. Предсказание пространственной структуры РНК……………………. 95

8.1. Терминология вторичной структуры РНК……………………...... 96

8.2. Методы предсказания вторичной структуры РНК………………. 97

Алгоритм Нуссинов………………………………………………… 98

Алгоритм Цукера…………………………………………………… 100

Сравнительный анализ последовательностей РНК………………. 101

9.Предсказание пространственной структуры белка……………………. 103

Литература…………………………………………………………………. 108

Список сайтов……………………………………………………………… 110



Словарь терминов………………………………………………………… 111




Достарыңызбен бөлісу:
1   2   3   4   5   6   7   8   9   10   11




©dereksiz.org 2024
әкімшілігінің қараңыз

    Басты бет