Выравнивание нуклеотидных последовательностей.
Для белок–кодирующих последовательностей аминокислотное выравнивание обычно лучше нуклеотидного, в частности, поскольку первые эволюционируют медленнее. Но во многих ситуациях не обойтись без выравнивания нуклеотидных последовательностей. Для этой цели разработаны различные подходы и алгоритмы.
Одним из самых популярных является алгоритм Нидлмана – Вунша, рассмотренный выше.
Множественное выравнивание.
Множественное выравнивание (multiple sequence alignment) – это выравнивание набора из трех и более последовательностей одновременно, при котором элементы в одинаковых позициях группируются в колонки. Основная цель множественного выравнивания – это выявление доменов, содержащихся в изучаемой последовательности. Множественное выравнивание может быть как полным, так и частичным.
Пример – результат множественного выравнивания пяти нуклеотидных последовательностей приведен на рисунке
-
G
|
–
|
–
|
C
|
A
|
A
|
C
|
C
|
C
|
A
|
G
|
G
|
C
|
C
|
C
|
T
|
A
|
A
|
C
|
A
|
A
|
G
|
G
|
G
|
T
|
A
|
G
|
A
|
–
|
C
|
A
|
A
|
G
|
G
|
C
|
A
|
C
|
–
|
–
|
A
|
C
|
–
|
A
|
G
|
C
|
C
|
C
|
A
|
G
|
C
|
C
|
C
|
C
|
A
|
G
|
Разработаны различные алгоритмические подходы для построения множественного выравнивания. Наиболее часто используется так называемое прогрессивное выравнивание. При использовании этого подхода сначала выбираются две наиболее похожие последовательности, которые выравниваются стандартным алгоритмом парного выравнивания. Это выравнивание фиксируется. Далее выбирается третья последовательность, которая «подравнивается» к первому выравниванию, затем 4–я и т.д. до тех пор, пока не будут выровнены все последовательности. Одной из наиболее широко используемых реализаций алгоритма прогрессивного множественного выравнивания является программа CLUSTAL.
Программы серии CLUSTAL.
Первая программа серии Clustal была разработана в 1988 году. Затем ее усовершенствовали путем добавления прогрессивного выравнивания, то есть созданием множественного выравнивания в результате серий попарных выравниваний, следуя ветвлению направляющего дерева, построенного методом UPGMA (см. раздел 6.3.).
В 1992 году появилась второе поколение программ Clustal. Программа, названная ClustalV.
В 1994 году появилось третье поколение программ под названием ClustalW. Благодаря усовершенствованному алгоритму она стала значительно проще в работе. Появилась возможность выбирать матрицы сравнения аминокислот и нуклеотидов, а также устанавливать штрафы за внесение пробелов. Следует отметить высокую совместимость программ этого поколения с другими пакетами. Это было достигнуто за счет представления результатов выравнивания в специальном формате FASTA (см. ниже). Последним представителем серии является программа ClustalX, для которой характерен более удобный интерфейс и более легкая оценка результатов выравниваний. Именно последние программы серии Clustal позволяет создавать наиболее биологически корректные множественные выравнивания дивергировавших последовательностей.
Программа CLUSTALW, доступна на сервере EBI (http://www.ebi.ac.uk/clustalw/index.html).
Стартовая страница CLUSTALW приведена на рисунке 3.5.
Первоначально необходимо ввести в окно программы изучаемые аминокислотные или нуклеотидные последовательности в одном из 7 возможных форматов (NBRF/PIR, EMBL/SWISSPROT, Pearson (Fasta), Clustal (*.aln), GCG/MSF (Pileup), GCG9/RSF, GDE). Наиболее часто используется формат FASTA. Последовательность в этом формате начинается с названия, перед которым ставят символ “>”. Не рекомендуется применение названий длиннее 80 знаков (включая пробелы). Затем с новой строки вводят саму последовательность.
Основные установки CLUSTALW, значение которых влияет на качество построенного выравнивания, приведены ниже.
Рис. 3.5. Стартовая страница CLUSTALW.
ALIGNMENT - выбор алгоритма выравнивания.
Опции для парного выравнивания:
KTUP - определяет длину начального слова при построении парного выравнивания;
WINDOW LENGTH - длина сегмента, включающего «наилучший» выровненный сегмент. Для увеличения скорости получения решения надо уменьшать этот параметр, для увеличения точности выравнивания надо увеличивать этот параметр.
SCORE - определяет минимальный вес выравнивания;
TOPDIAG - число непрерывно совпадающих k-плетов на участке парного выравнивания (если k=1, то это просто длина совпадающего сегмента). Для увеличения скорости надо уменьшать этот параметр, для увеличения точности надо увеличивать этот параметр.
PAIRGAP - штраф за разрыв при построении парного выравнивания.
Опции для множественного выравнивания последовательностей.
MATRIX - выбор матрицы замен, для построения выравнивания;
GAP OPEN - штраф за начало разрыва;
END GAPS - штраф за окончание разрыва;
GAP EXTENSION - штраф за длину разрыва.
В поле [PHYLOGENETIC TREE] можно выбрать установки для построения филогенетического дерева родства последовательностей.
При использовании данной программы выравнивание состоит из трех этапов: 1) парное выравнивание, 2) построение направляющего дерева и 3) собственно множественное выравнивание.
1) В ходе парных выравниваний предварительно сравниваются все возможные пары набора последовательностей. На основании проведенных сравнений вычисляются показатели сходства в соответствии с выбранными матрицами. В наиболее широко используемой матрице сравнений нуклеотидов DNA identity совпадение нуклеотидов оценивается в 1 балл, а несовпадение – –10000 баллов. Такой высокий штраф за несоответствие облегчает внесение пробелов. Для сравнения аминокислот используют матрицы PAM, Blosum и Gonnet. Матрицы PAM и Blosum были описаны выше. Матрицы Gonnet представляют собой усовершенствованный вариант матриц РАМ, основанный на большей базе данных. Использование этой матрицы наиболее целесообразно для инициальных парных сравнений.
2) Построение на основании попарных сравнений т.н. направляющего дерева (guide–tree) методом NJ (см. разделы 6.1 и 6.3.).
3) Множественное выравнивание является основой программ Clustal, однако детали его сложны. Каждый этап множественного выравнивания состоит из сопоставления двух последовательностей или выравниваний, выполняемого в соответствии с ветвлением полученного дерева NJ.
Полученное множественное выравнивание может быть отображено в черно–белой или цветной гамме. Идентичные аминокислотные остатки или нуклеотиды отмечаются звездочкой (*), консервативные замены – двоеточием (:), а полуконсервативные – точкой (.).
Основным предназначением выравниваний, проведенных с помощью программ Clustal, является вычисление на их основании т.н. эволюционных расстояний между аминокислотными или нуклеотидными последовательностями (см. раздел 5.2), определение типа аминокислотных замен, поиск функционально важных участков и т. д.
В ходе выравнивания также выявляются консервативные участки последовательностей, которые могут являться элементами вторичной структуры, сайтами связывания лигандов и другими функциональными мотивами. Эта информация используется для предсказания вторичной и третичной структуры и функции белков, а также для идентификации новых представителей белковых семейств.
Кроме того, программы семейства Clustal используются для построения дендрограмм, показывающих филогенетические отношения сравниваемых последовательностей (см. раздел 6).
3.5. Программный поиск сходных аминокислотных или нуклеотидных последовательностей.
Важным звеном исследований молекулярной биологии является сравнение аминокислотных и нуклеотидных последовательностей, которое позволяет идентифицировать семейства генов, относить к ним секвенированные последовательности, устанавливать их структурные и функциональные взаимоотношения. Разработано большое количество программ для сравнения последовательностей с последующим определением их сходства, но наиболее часто используются программы серии BLAST.
Пакет программ BLAST
В этот пакет входят программы для нахождения локального выравнивания между заданной последовательностью и последовательностями из базы данных. Его можно использовать как для случая ДНК, так и для белковых последовательностей. Доступная версия программы находится на сервере NCBI (http://www.ncbi.nlm.nih.gov/BLAST/).
На рисунке 3.6 показана стартовая страница BLAST.
Рис. 3.6. Стартовая страница BLAST.
Семейство программ серии BLAST можно разделить на 7 основных групп:
1. Геномные программы – предназначены для сравнения изучаемой нуклеотидной последовательности с базой данных секвенированного генома (Arabidopsis thaliana, Oryza sativa, Apis mellifera и др.).
2. Нуклеотидные – предназначены для сравнения изучаемой нуклеотидной последовательности с базой данных секвенированных нуклеиновых кислот и их участков. Туда входят:
• blastn – медленное сравнение с целью поиска всех сходных последовательностей;
• megablast – быстрое сравнение с целью поиска высоко сходных последовательностей;
• dmegablast – быстрый поиск очень похожих, но не идентичных последовательностей;
3. Белковые – предназначены для сравнения изучаемой аминокислотной последовательности белка с имеющейся базой данных белков и их участков. Туда входят алгоритмы:
• blastp – медленное сравнение с целью поиска всех сходных последовательностей;
• psi–blast – сравнение с целью поиска последовательностей, обладающих незначительным сходством;
• phi–blast – поиск белков, содержащих определенный пользователем паттерн и др.
4. blastx – сравнивает транслированную последовательность с базой данных белковых последовательностей.
5. tblastn – сравнивает аминокислотную последовательность с базой данных транслированных нуклеотидных последовательностей.
6. tblastx – сравнивает транслированную последовательность ДНК с базой данных транслированных нуклеотидных последовательностей.
7. Специализированный
• cdart – сравнение с целью поиска гомологичных белков по доменной архитектуре;
• VecScreen – определение сегментов нуклеотидной последовательности нуклеиновой кислоты, которые могут иметь векторное происхождение и др.;
• bl2seq – локальное выравнивание двух последовательностей и др.
Принцип работы BLAST.
Сначала алгоритм BLAST создает таблицу всех «близких» слов фиксированной длины (по умолчанию – длины 3 для белковых последовательностей, 11 — для нуклеотидных), которые бы локально выравнивались с заданной последовательностью. При этом вес выравнивания должен быть выше некого порогового значения. Затем алгоритм сканирует базу данных, и всякий раз, когда находит слово из списка, начинает процесс «расширения совпадения», чтобы увеличить возможный участок выравнивания без разрывов, в обоих направлениях, до достижения максимального веса. После этого вычисляется статистическая значимость найденных совпадений, и если она превышает определенный порог, то выдается результат.
Результат поиска, например в blastn, включает в себя:
1) Графическое изображение обнаруженных гомологов;
2) Список гомологов с оценкой значимости находки;
Для каждой обнаруженной последовательности необходимо определить значимость сходства с изучаемой последовательностью. Для этого программа вычисляет вес (score) выравнивания и величину E (expected value, E–value). E–value – это ожидаемое количество последовательностей с весом выравнивания равным или большим веса для анализируемой последовательности, которые, вероятно, будут обнаружены при поиске в базе данных.
Чем выше вес, тем больше сходство двух последовательностей. Чем меньше величина Е, тем достовернее выравнивание.
При этом следует учитывать, что гомология ниже 50 % при больших значениях E–value, как правило, несущественна.
3) Локальные парные выравнивания нуклеотидной последовательности с последовательностями гомологов.
Вопросы:
-
Что такое выравнивание, каковы его цели и задачи? Назовите основные типы выравниваний.
-
Для чего нужны матрицы замен?
-
Чем отличается линейный штраф за разрывы от аффинного?
-
Опишите алгоритм глобального выравнивания Нидлмана – Вунша.
-
Для чего используется локальное выравнивание по алгоритму Смита – Уотермана? Его отличия от глобального выравнивания.
-
Для каких целей используют программы серии CLUSTAL?
-
Перечислите основные группы программ серии BLAST, для каких целей они применяются?
4. Предсказание структуры генов эукариот.
4.1. Краткие сведения о структуре генов.
Гены эукариот можно разделить на две группы: белок–кодирующие и РНК–кодирующие. Белок–кодирующие гены транскрибируютя в матричную РНК (мРНК), которая затем транслируется в аминокислотную последовательность белка. РНК–кодирующие гены кодируют разные виды РНК: транспортные РНК (тРНК), рибосомальную РНК (рРНК), малые ядерные РНК (мяРНК) и др.
В отличие от прокариот гены эукариот устроены сложнее, в составе геномов значительно больше ДНК.
Так, при изучении геномов растений возникают трудности, которые связанные с огромными размерами геномов. Для отдельных видов растений они достигают десятков и даже сотен миллиардов пар нуклеотидов (п.н.). Геномы основных хозяйственно важных растений (кроме риса, льна и хлопка) по размерам либо близки к геному человека, либо превышают его во много раз (таблица 4.1).
Таблица 4.1. Размеры гаплоидных геномов различных организмов (по Зеленину А.В., 2003).
Организм
|
Размер генома, млн. пар нуклеотидов
|
Кишечная палочка (Escherichia coli)
|
4,5
|
Пекарские дрожжи (Saccharomyces cerevisiae)
|
13,55
|
Круглый червь (Caenorhabditis elegance)
|
97
|
Цветковое растение класса двудольных
(Arabidopsis thaliana)
|
125
|
Фруктовая муха дрозофила (Drosophila melanogaster)
|
180
|
Лен *(Linum L.)
|
350–680
|
Рыба фугу (Fugu rubripes)
|
365
|
Рис (Oriza sativa,
|
420–470
|
Oriza sativa L.ssp indica,
|
420
|
Oriza sativa L. Ssp japonica)
|
466
|
Хлопок (Gossipium L.)
|
2100–3100
|
Кукуруза (Zea mays)
|
2500
|
Мышь (Mus musculus L.)
|
3000
|
Человек (Homo sapiens)
|
3200
|
Рожь (Secale cereale)
|
6000–7000
|
Ячмень (Hordeum vulgare)
|
«
|
Диплоидная пшеница (Triticum monococcum)
|
«
|
Тетраплоидная пшеница (Triticum durum)
|
12000–13000
|
Гексаплоидная пшеница (Triticum aestivum)
|
16000–18000
|
Лилейные(Lilium L.)
|
50000–125000
|
* Причина различий размеров геномов – в полиплоидии.
Наблюдаются резкие колебания чисел хромосом у различных растений – от двух у некоторых видов до нескольких сотен у других, причем не удается выявить строгой корреляции между размером генома и числом хромосом.
Кроме того, растения отличаются изобилием полиплоидных форм с близкими, но не идентичными геномами (аллополиплоидия) и др.
Отличительным свойством эукариотических генов является экзон- интронная организация их структуры.
Белок–кодирующий ген эукариот – это длинная линейная последовательность из сочетаний четырех нуклеотидов, содержащая транскрибируемую часть ДНК, а также 5’ и 3’ нетранскрибируемые фланкирующие районы, которые необходимы для регуляции транскрипции и процессинга прематричной РНК (пре–мРНК).
Гены эукариот разделены на серию отрезков, при этом кодирующие белок фрагменты (экзоны) чередуются с некодирующими фрагментами (интронами). Во время транскрипции считывается вся протяженность гена, содержащая как экзоны, так и интроны. Затем в ходе созревания мРНК (или процессинга) в молекуле РНК вырезаются и удаляются участки, считанные с интронов, а те фрагменты, что были считаны с экзонов, соединяются в одну общую последовательность. Происходит их сшивка (сплайсинг).
Все экзоны можно разделить на 4 класса: 5’–экзоны, внутренние экзоны, 3’–экзоны и экзоны, находящиеся в составе безинтронных генов. Процесс сплайсирования происходит на коротких участках мРНК, называемых сайтами сплайсинга. Выделяют донорный сайт, акцепторный сайт и сайт ветвления. Каждый тип сайта описывается определенной консенсусной последовательностью.
Число, внутренняя локализация интронов и их длина характерны для каждого гена. Экзоны, как правило, имеют небольшую длину, от 100 до 600 п.н., а длина интрона может варьировать в широких пределах – от нескольких десятков пар нуклеотидов до многих десятков тысяч. Обычно интрон начинается с динуклеотида GT и заканчивается AG, что обеспечивает правильный сплайсинг.
В некоторых клетках в мРНК информация считывается не со всех экзонов данного гена, а только с некоторых. В клетках другого типа – с другого набора экзонов. В результате с одного гена считывается несколько вариантов мРНК. Эти разные мРНК образуются в результате удаления фрагментов, соответствующих разным экзонам, и соответственно их сплайсинга, который в данном случае называется альтернативным.
Каждая из таких мРНК транслируется в определенной группе клеток, в результате чего синтезируется один из вариантов белка, в других клетках – другой набор экзонов и соответственно другой белок. Один активирующий сигнал включает только один ген, но за счет альтернативного сплайсинга синтезируется много различных белков.
Экзон–интронная структура гена эукариот и альтернативный сплайсинг обеспечивают огромную емкость кодирования генетической информации.
Регуляция транскрипции у эукариот также имеет особенности. Во-первых, у эукариот функционируют три разных типа РНК-полимераз: I, II, III. Во-вторых, РНК-полимераза эукариот не может самостоятельно инициировать транскрипцию. Для ее активирования необходимо большое число белков, называемых общими факторами транскрипции, которые должны объединяться в комплекс, прежде чем транскрипция начнется. Формирование комплекса – это многоступенчатый процесс. Во многих случаях регуляторные белки действуют, влияя главным образом на процесс сборки транскрипционного комплекса. И, в-третьих, большинство регуляторных белков могут влиять на скорость транскрипции, даже если эти белки связываются с участками ДНК, расположенными за тысячи пар нуклеотидов от промотора. Это значит, что любой конкретный промотор может находиться под контролем неограниченного числа регуляторных последовательностей, разбросанных по геному.
Существуют энхансерные последовательности, которые служат в качестве специфических участков (сайтов) связывания особых регуляторных белков, усиливающих или активирующих процесс транскрипции.
4.2. Методы предсказания структуры генов эукариот.
Одной из задач биоинформатики является выявление генов в анализируемой последовательности. Анализ структуры гена включает в себя определение его границ, а также границ, содержащихся в нем экзонов и интронов.
Существует большое количество программ, занимающихся распознаванием экзон-интронной структуры генов. Одними из первых подходов анализа пре-мРНК были методы, основанные на поиске коротких сайтов сплайсинга. Затем для анализа и учета межпозиционных взаимозависимости стали использовать более сложные способы описания сайтов сплайсинга, такие как марковские модели и нейронные сети.
В последние годы появилось большое количество методов предсказания структуры генов, основанных на теории скрытых марковских моделей (HMM). В этом случае последовательность ДНК гена рассматривается как набор подпоследовательностей–состояний (интрон, экзон и т.д.). Состояния называются скрытыми, поскольку в исследуемой ДНК заранее неизвестно где находятся границы перехода из одного состояния в другое. Границы выявляют по вероятностям сочетаний соседних нуклеотидов. Для этого на основе обучающей выборки подпоследовательностей (с известными границами) оцениваются вероятности переходов между соседними нуклеотидами внутри каждого состояния, а также вероятности переходов между состояниями. В результате получают настроенную НММ, по которой и ведут анализ новых последовательностей.
На данный момент существует достаточно много программ распознавания генов, основанных на теории скрытых марковских моделей.
Одной из них является программа GenScan.
Адрес GENSCAN: http://genes.mit.edu/GENSCAN.html
Эта программа первоначально была обучена для распознавания генов у позвоночных животных. Версия программы для позвоночных надежно работает на последовательностях Drosophila, версии для Arabidopsis и кукурузы хорошо работают на этих объектах.
Другая программа для распознавания генов – GENIE. Эта программа может использовать для распознавания отдельных элементов гена различные методы. В частности, для распознавания сайтов сплайсинга использовались модели нейронных сетей, а для распознавания кодирующих районов – марковские модели. Объединение всех этих элементов в единую модель гена производилось с помощью скрытых марковских моделей.
Программа GENIE предназначена для анализа мультиэкзонных генов. Она обучена на человеческих генах, но авторы полагают, что хорошие результаты могут быть получены и для анализа генов других позвоночных. Если задать опцию "беспозвоночные", то программа более надежно выявляет элементы генов у Drosophila и других беспозвоночных.
Адрес GENIE: http://www.fruitfly.org/seq_tools/genie.html
Для значительного повышения качества распознавания можно использовать информацию об известных гомологичных последовательностях, представленных в банках данных. Одним из таких подходов является метод, реализованный в программе TwinScan.
Адрес TwinScan: http://www.bioinformatics.ubc.ca/resources/tools/twinscan
Алгоритм этой программы состоит из нескольких шагов. Сначала производится выравнивание анализируемой последовательности с гомологами определенного вида из базы данных. В выравнивании отмечаются пропуски, несовпадения, совпадения. По этой цепочке находят наиболее вероятную структуру гена (интроны, зкзоны) с помощью скрытой марковской модели. Она заранее настраивается на основе информации о выравнивании последовательностей генов этих видов, представленных в базах данных.
Кроме использования скрытых марковских моделей можно использовать известный метод дискриминантного анализа, реализованный в программе MZEF. Здесь по обучающей выборке генов рассчитываются вероятностные веса всех входящих в ген элементов (сайты сплайсинга, интроны, экзоны и т.д.). На основании этой информации строится дискриминантная функция, наилучшим образом разделяющая разные элементы обучаюших данных. Далее эта функция используется для анализа новых генов. Программа MZEF использует квадратичный дискриминантный анализ и предназначена для поиска внутренних экзонов.
Адрес MZEF: http://www.cshl.edu/OTT/html/mzef.html
Определенное распространение при распознавании генов получило также использование нейронных сетей. Одним из представителей этого подхода является метод, реализованный в программе GRAIL. Здесь производится расчет разнообразных свойств тестовых последовательностей экзонов. Затем, на основе этих свойств настраивается модель нейронной сети и по ней далее производится распознавание экзонов в новых последовательностях. После этого проводят «сшивку» предсказанных экзонов с помощью метода динамического программирования.
Адрес GRAIL: http://compbio.ornl.gov/Grail–1.3/
Достарыңызбен бөлісу: |