Смиряев а. В., Панкина л. К. Основы биоинформатики


Терминология вторичной структуры РНК



бет10/11
Дата11.07.2016
өлшемі8.87 Mb.
#192412
түріУчебное пособие
1   2   3   4   5   6   7   8   9   10   11

8.1. Терминология вторичной структуры РНК.

РНК – это полимер, состоящий из четырех различных нуклеотидов (A, C, G, U). В парах GC формируются три водородных связи, а в парах AU – две. Пары оснований почти всегда уложены стопкой друг на друга. Возникающее при этом взаимодействие называется стекинг–взаимодействием, а непрерывная стопка уложенных друг на друга пар оснований называется стеблем (stem).

Однотяжевые участки РНК, ограниченные спаренными основаниями, называются петлями (loops). Петля на конце стебля называется шпилечной петлей (hairpin loop). Подструктуры, состоящие из простого стебля и петли, называются стеблевыми петлями или шпильками. Группа неспаренных оснований в одном из тяжей стебля, называется выпячиванием (bulge). Неспаренные основания, прерывающие оба тяжа стебля РНК, называются внутренней петлей (interior loop). Петли, из которых отходят три и более стеблей, называются разветвленными петлями (multi–branched loops). Шпильки и петли в составе трехмерной пространственной структуры РНК являются структурными элементами РНК, которые определяют специфичность ее взаимодействия с белками и другими нуклеиновыми кислотами. Шпилечные структуры также являются сайтами узнавания для регуляторных белков в таких биохимических процессах, как транскрипция и трансляция. Также встречаются псевдоузлы (pseudoknots). Элементы вторичной структуры РНК представлены на рисунке 8.1.
8.2. Методы предсказания вторичной структуры РНК.

Поскольку вторичная структура РНК сохраняется в ходе эволюции в большей степени, чем последовательность РНК, то анализировать последовательность РНК сложнее, чем последовательность белков и ДНК.

Существуют различные методы предсказания вторичной структуры РНК.

Если необходимо предсказать вторичную структуру для одной последовательности РНК, то можно использовать два алгоритма динамического программирования: Нуссинов и Цукера.

C
Шпилечная петля

Внутренняя петля
A

G A


G A

CG

││



C
Выпячивание
G

G

CG

││

AU



/

G
Стебли


│ A


A

\

G
Разветвленная петля
C

CG

││

AU



/ \ /

C C G


CA / │ │

A G–C–A–A–G GC

A G–G–U–U–C │ │

U
Псевдоузел


–G \ CG

U │ \


\ / A

GC │


│ │ U

AU │


│ │ C

GU │


│ │ A

CG /


A G A

Рис 8.1. Элементы вторичной структуры.


Алгоритм Нуссинов.

Рассмотрим алгоритм, предложенный Нуссинов (1978). Этот алгоритм динамического программирования удобен для описания, поскольку в нем нет большого количества деталей. В его основе лежит поиск структуры с наибольшим количеством пар оснований.

Наилучшая структура рассчитывается сначала для коротких подпоследовательностей. Основная идея состоит в том, что существует только 4 способа получить наилучшую структуру для фрагмента последовательности от i–го нуклеотида до j–го из лучших структур меньших подпоследовательностей. На рисунке 8.2. представлены эти способы.

(1) Добавить спаренные позиции i и j к лучшей структуре, найденной для подпоследовательности i+1, j–1;

(2) Добавить неспаренную позицию i к лучшей структуре, найденной для подпоследовательности i+1, j;

(3) Добавить неспаренную позицию j к лучшей структуре, найденной для подпоследовательности i, j–1;

(4) Объединить две оптимальные подструктуры i, k и k+1, j;



  1. (2) (3) (4)

Рис. 8.2. Способы добавления нуклеотида i и/или j к уже найденной оптимальной подструктуре (Р. Дурбин и др. 2006).
Алгоритм Нуссинов выбирает один из четырех способов построения вторичной структуры РНК. В каждом способе наилучшая структура РНК для подпоследовательности i, j может быть получена путем добавления i и/или j к одной из уже найденных оптимальных подструктур для меньших подпоследовательностей. Псевдоузлы не рассматриваются.

Рассматривается последовательность x длиной L с символами x1,…., xL. Пусть δ(i,j)=1, если xi и xj – пара комплементарных оснований; иначе δ(i,j)=0. Проводим рекурсивное вычисление весов γ(i,j) – максимального числа пар оснований, которые могут быть сформированы для подпоследовательности xi,…., xj. Заполняем матрицу динамического программирования. Значение γ(1,L) и будет равно числу пар оснований в структуре с максимальным количеством таких пар. Часто существует несколько альтернативных структур с одинаковым числом пар оснований. Чтобы выделить одну из таких структур, необходимо проделать процедуру обратного прохода по матрице динамического программирования, начиная с γ(1,L).

К недостаткам этого алгоритма следует отнести то, что в нем не учитываются важные структурные свойства, такие как предпочтения определенных длин петель или предпочтения определенных ближайших соседей по структуре, которые возникают вследствие стекинг–взаимодействий между соседними парами оснований в стеблях РНК. Поэтому в современных исследованиях этот метод используется редко.
Алгоритм Цукера.

Другим методом предсказания вторичной структуры одиночной молекулы РНК является алгоритм Цукера (1981). Главное предположение состоит в том, что правильная структура РНК в равновесии обладает наименьшей свободной энергией, которую обозначают G. Эта энергия оценивается как сумма свободных энергий петель, пар оснований и других элементов вторичной структуры. Особенность этого алгоритма состоит в том, что при вычислении энергии стеблей энергия стекинга соответствует взаимодействию соседних пар оснований, а не самим парам. Таблицы параметров G для предсказания структуры РНК были подобраны исходя из результатов экспериментальных термодинамических исследований малых модельных РНК. При этом учитывают стекинг, длины шпилечных петель, выпячиваний, внутренних петель, разветвленных петель, одиночных болтающихся нуклеотидов и неспаренных концов стеблей.

Таблицы параметров G можно найти по адресу: http://www.ibc.wust1.edu/zuker/rna/energy/

Пример расчёта энергии структуры по алгоритму Цукера представлен на рис. 8.3.


Исходный алгоритм Цукера находит только одну оптимальную структуру. Биологически правильная структура часто не совпадает с вычисленной оптимальной структурой, а представляет собой структуру, чья свободная энергия находится в пределах нескольких процентов от минимальной энергии. Это обстоятельство было учтено в алгоритме субоптимального сворачивания РНК Цукера (1989).
UU Петля +5,9 Ккал/моль

A A


GC Стекинг+Пара –2,9 Ккал/моль

GC Стекинг+Пара –2,9 Ккал/моль

A Выпячивание +3,3 Ккал/моль

GC Стекинг+Пара –2,9 Ккал/моль

UA Стекинг+Пара –0,9 Ккал/моль

AU Стекинг+Пара –1,8 Ккал/моль

CG Стекинг+Пара –2,1 Ккал/моль

AU3'


A Неструктурированный 5' – конец 0 Ккал/моль

A

5'



∆G=–3,2 Ккал/моль
Рисунок 8.3. Пример вычисления G для петли РНК на стебле (сайт связывания белка оболочки в диком типе фага R17).

Соответствующий сервер: http://bioinfo.math.rpi.edu/~zukerm/


К недостаткам метода Цукера относится то, что разные таблицы энергии дают разные результаты. Кроме того, конформация может меняться во времени и находить биологически значимую структуру, не обязательно с минимальной энергией. Неспаренные петли могут взаимодействовать и стабилизировать структуру тРНК, рРНК.

Рассмотренные выше алгоритмы динамического программирования не могут предсказывать псевдоузлы. Предсказание псевдоузлов рассмотрено в работе Е.Риваса и С.Эдди (2000).



Сравнительный анализ последовательностей РНК.

Другим методом предсказания вторичной структуры является анализ множественных выравниваний семейств родственных РНК. Процесс предсказания общей вторичной структуры для множественного выравнивания последовательностей РНК называется сравнительным анализом последовательностей РНК. Это теоретический метод предсказания структуры. Он считается самым надежным, уступая только экспериментальным методам ядерно–магнитного резонанса и рентгеноструктурному анализу.

Для предсказания правильной структуры сравнительным анализом необходимо знание структурно верного множественного выравнивания, в то же время структурно правильное множественной выравнивание подразумевает знание правильной структуры.

В структурно правильном множественном выравнивании РНК консервативные пары оснований часто выявляются по высокой частоте коррелированных компенсаторных мутаций.

Структура определяется итеративной процедурой улучшения, состоящей из построения структуры на основе существующего множественного выравнивания, а затем – перестраивания выравнивания на основе полученной структуры. Сравниваемые последовательности должны быть достаточно схожи, чтобы они могли быть выровнены лишь на основе гомологии первичной структуры для начала итеративного процесса, но в то же время, они должны достаточно отличаться, чтобы можно было ожидать наличие коррелированных мутаций. На рисунке 8.4 показано множественное выравнивание трех последовательностей и предсказанная вторичная структура.
U C

Seq1 G C C U U C G G G C U G

Seq1 G A C U U C G G U C C●G

Seq1 G G C U U C G G C C N●N'

G●C


Рисунок 8.4. Множественное выравнивание трех последовательностей (слева) и предсказанная вторичная структура (справа) (Дурбин Р. и др.,2006).
N обозначает нуклеотиды A, C, G, U; N' – нуклеотид, комплементарный нуклеотиду N.

В результате сравнительного анализа последовательностей видно, что в выделенных прямоугольниками – позициях множественного выравнивания (слева) мутации оснований коррелированны так, чтобы сохранить Уотсон–Криковскую комплементарность. Эта коррелированность подразумевает наличие спаривания соответствующих оснований, что приводит к предсказанию вторичной структуры (справа).


Вопросы:

  1. Назовите основные типы РНК и опишите их функции.

  2. Дайте определение элементам вторичной структуры РНК.

  3. Перечислите методы предсказания вторичной структуры РНК.

  4. Какие алгоритмы можно использовать для предсказания вторичной структуры для одной последовательности РНК?

  5. Как проводят сравнительный анализ последовательностей РНК?


9. Предсказание пространственной структуры белка.

Предсказание пространственной структуры белка по аминокислотной последовательности является одной из важных задач биоинформатики.

Напомним, что первичная структура белка – это последовательность аминокислотных остатков в полипептидной цепи.

Вторичная структура белка – это локальное упорядочивание фрагмента полипептидной цепи, стабилизированное водородными связями и гидрофобными взаимодействиями.

Третичная структура белка – это пространственное строение полипептидной цепи, то есть взаимное расположение элементов вторичной структуры, стабилизированное взаимодействием между боковыми цепями аминокислотных остатков. В стабилизации третичной структуры принимают участие: ковалентные связи; ионные взаимодействия; водородные связи; гидрофобные взаимодействия.

Четверичная структура – это субъединичная структура белка: взаимное расположение нескольких полипептидных цепей в составе единого белкового комплекса.

Кроме того выделяют трёхмерную структуру белка, которая представляет собой набор пространственных координат, составляющих белок атомов.

Доменная структура белка – это последовательность участков белка, имеющих известную функцию или определенную трёхмерную структуру.

Пространственная структура белка тесно связана с его функционированием.

Число известных первичных белковых структур, определенных по нуклеотидным последовательностям ДНК, превосходит число известных пространственных белковых структур. Зная первичную структуру белка и его предсказанную трехмерную пространственную (вторичную и третичную) структуру можно предсказать функцию белка.

Экспериментально пространственная структура белка устанавливается с помощью рентгеноструктурного анализа или ядерно–магнитного резонанса.

Разработаны различные приближенные методы для предсказания пространственной структуры белка по его аминокислотной последовательности. Самый широко применяемый метод основан на использовании информации из баз данных трехмерных структур белков.

В этом методе используют информацию об известной пространственной структуре белков, обладающих первичной структурой близкой к исследуемому белку. В качестве начального приближения берут известную пространственную структуру белка, гомологичного исследуемому, а потом проводится ее уточнение.

Для исследования гомологичности белков с известными аминокислотными последовательностями используется выравнивание. Его смысл состоит в нахождении наиболее консервативных остатков в этих последовательностях, которые обычно являются ключевыми для выполнения функций белка (исследование доменной структуры белка). Используя известные базы данных можно осуществить поиск гомолога данного белка в различных организмах, построить филогенетическое дерево различных белковых последовательностей и т.д.

Одной из программ, с помощью которой можно предсказать третичную структуру изучаемого белка, принимая за основу уже известную третичную структуру ближайшего гомолога является Geno3D.

Адрес Geno3D: http://geno3d-pbil.ibcp.fr

Существует сервер для сравнительного моделирования трехмерных структур белков SWISS-MODEL, на котором можно предсказать 3D структуру по гомологии.

Адрес SWISS-MODEL: http://swissmodel.expasy.org

SAM-Т99. В этой программе вначале производится поиск в базе данных аминокислотных последовательностей, гомологичных заданной, и по ним настраивается профиль – основа скрытой марковской модели. Полученная модель далее используется, в частности, для поиска белков, слабо гомологичных заданным аминокислотным последовательностям.

Адрес: http://www.cse.ucsc.edu/research/compbio/HMM-apps/T99-query.html

PSIPRED позволяет предсказывать пространственную структуру белка по аминокислотной последовательности тремя методами: 1) PSIPRED –распознавание вторичной структуры, основанное на нейронных сетях; 2) MEMSTAT – предсказание вторичной структуры и топологии трансмембранных белков, использующее множественные выравнивания, полученные из PSI-BLAST; 3) GenTHREADED – распознавание вторичной структуры и поиск родственных последовательностей, использующее алгоритм выравнивания по профилю.

Адрес PSIPRED: http://bioinf.cs.ucl.ac.uk/psipred/

APSSP – метод предсказания вторичной структуры белка, основанный на применении нейронных сетей.

Адрес APSSP: http://www.imtech.res.in/raghava/apssp2/

Есть сервер, предоставляющий программы для предсказания вторичных структур белков – Рrotein Secondary Structure prediction server (SSpro). SSpro1 – рекуррентная нейронная сеть, с помощью которой по профилям выравниваний предсказывается вторичная структура белка. SSpro2 – такая же рекуррентная нейронная сеть, работающая на основе профилей, полученных программой PSI-BLAST.

Адрес:http://www.igb.uci.edu/tools/scratch/

Различные методы предсказания вторичной структуры можно найти на сайте http://cubic.bioc.columbia.edu/eva/

Сервер PredictProtein (META–PP) предоставляет услуги по анализу последовательностей белков различными программными средствами, рассредоточенными по сети WWW (SignalP, SWISS–MODEL, FRSVR, JPRED, TMHMM, NetOglyc, CPHmodels, SAMt98, TopPred, NetPhos, DAS, NetPico, ChloroP). С помощью этого сервера можно находить сигнальные пептиды, сайты связывания, предсказывать вторичные структуры и др.

Адрес: http://www.embl–heidelberg.de/predictprotein/predictprotein.html

Сервер Structure Prediction Meta Server предоставляет доступ к различным методам распознавания укладок белков и предсказания локальных структур.

Адрес: http://bioinfo.pl/meta/

ExPASy (Expert Protein Analysis System) – сервер швейцарского института биоинформатики

Адрес: http://cn.expasy.org/tools/#secondary

Базы данных пространственных структур:

PDB (Brookhaven Protein DataBank) – коллекция 3D–структур биологических макромолекул экспериментально определенных с помощью рентгеноструктурного, ядерно–магнитнорезонансного и др. методов.

Адрес: http://www.rcsb.org/pdb/

PFAM (Protein families database of alignments and HMMs) – большая коллекция белковых семейств.

Адрес: http://www.sanger.ac.uk/Pfam/

InterPro – база данных белковых семейств, доменов и функциональных сайтов, найденные в известных белках.

Адрес: InterPro: http://www.ebi.ac.uk/interpro/

SCOP (Structural Classification Of Proteins) – база данных по структурной классификации белков.

Адрес SCOP: http://scop.mrclmb.cam.ac.uk/scop/


Вопросы:

  1. Для чего нужно знать пространственную структуру белка?

  2. Как можно предсказать пространственную структуру белка по его аминокислотной последовательности, используя методы биоинформатики?

  3. С помощью каких программ можно предсказать третичную структуру белка по гомологии?

  4. Перечислите основные базы данных пространственных структур.


Литература


  1. Бутвиловский А.В., Барковский Е.В., Бутвиловский В.Э. Базисные методы молекулярной эволюции. Учебно-методическое пособие. Минск.: БГМУ, 2006. – 36 с.

  2. Дурбин Р., Эдди Ш., Крог А., Митчинсон Г. Анализ биологических последовательностей. Москва. Ижевск. 2006. 479 с.

  3. Ежова Т.А., Лебедева О.В., Огаркова О.А. и др. Arabidopsis thaliana – модельный объект генетики растений. Москва. Макс пресс 2003. 218 с.

  4. Зеленин А. В. Геном растений//Вестник Российской академии наук, 2003–73, 9: 297–806.

  5. Лин Х., Цзю К., Чжао Ц., Цинь Ц., Циу С., Сун С., Тан К. Выделение и характеристика гомолога гена липазы из Brassica napus. //Физиология растений. 2006. Т.53. №3. С. 410–417.

  6. Литвинов И.И., Лобанов М.Ю., Миронов А.А., Финкельштейн А.В., Ройтберг М.А. Информация о вторичной структуре белка улучшает качество выравнивания. //Молекулярная биология. 2006.Т.40.№3.С.533–540.

  7. Лысенко Е.А. Анализ эволюции семейства генов Sig, кодирующих сигма–факторы растений. //Физиология растений. 2006.Т.53.№5.С.684–694.

  8. Миронов А.А. Лекция №25 Биоинформатика http://bio.fizteh.ru/student/files/biology/biolections/lection25.html

  9. Наумов Д.Г. Филогенетический анализ α–галактозидаз семейства GH27. //Молекулярная биология. 2004. Т.38.№3.С. 463–476.

  10. Ней М., Кумар С. Молекулярная эволюция и филогенетика. Киев. 2004. 405 с.

  11. Омельянчук Н.А., Кузнецова Т.Н., Катохин А.В. МикроРНК растений // Информ. вестник ВОГиС. 2005.Т. 9. № 3. С. 440–450.

  12. Сутормин Р.А., Миронов А.А. Вероятностный метод предсказания трансмембранных участков по множественному выравниванию аминокислотных последовательностей. //Молекулярная биология. 2006.Т.40.№3.С.541–545.

  13. Dayhoff, MO, Schwartz, RM, Orcutt, BC (1978) A model of evolutionary change in proteins, matrixes for detecting distant relationships. In Dayhoff, MO (ed.), Atlas of protein sequence and structure, Vol 5, pp. 345–358. National Biomedical Research Foundation, Washington, DC.

  14. Joanne A. Fox, Scott McMillan, and B. F. Francis Ouellette. A compilation of molecular biology web servers: 2006 update on the Bioinformatics Links Directory. Nucl. Acids Res. 2006 34: W3–W5; doi:10.1093/nar/gkl379. http://nar.oxfordjournals.org/content/vol34/suppl_2/index.dtl

  15. Michael Y. Galperin The Molecular Biology Database Collection: 2007 update. Nucleic Acids Research, 2007, Vol. 35, Database issue D3–D4. http://nar.oxfordjournals.org/cgi/content/full/35/suppl_1/D3


Список сайтов.

http://www.belozersky.msu.ru/

http://www.bionet.nsc.ru/

http://cubic.bioc.columbia.edu/

http://www.ebi.ac.uk/

http://evolution.genetics.washington.edu/

http://www.expasy.org/

http://genes.mit.edu/

http://www.igb.uci.edu/tools/scratch/

http://www.jcbi.ru/

http://www.molbiol.edu.ru/review/

http://www.ncbi.nlm.nih.gov/

http://www.rusbiotech.ru/
Словарь терминов.

Бинарное дерево. Дерево, у которого каждая эволюционная ветвь может делиться только на две дочерние.

Биоинформатика. Наука, использующая методы прикладной математики, прежде всего статистики, и информатики для решения проблем молекулярной биологии, возникающих, в частности при моделировании процессов эволюции и оптимизации селекционного процесса.


Достарыңызбен бөлісу:
1   2   3   4   5   6   7   8   9   10   11




©dereksiz.org 2024
әкімшілігінің қараңыз

    Басты бет