Смиряев а. В., Панкина л. К. Основы биоинформатики



бет1/11
Дата11.07.2016
өлшемі8.87 Mb.
#192412
түріУчебное пособие
  1   2   3   4   5   6   7   8   9   10   11

РОССИЙСКИЙ ГОСУДАРСТВЕННЫЙ АГРАРНЫЙ УНИВЕРСИТЕТ (МСХА имени К. А. ТИМИРЯЗЕВА)

________________________________________________________________________________________________________________________________________________________________________________

СМИРЯЕВ А.В., ПАНКИНА Л.К.



ОСНОВЫ БИОИНФОРМАТИКИ

МОСКВА, 2013


УДК 002:57.001.573

ББК 32.81:28.0вб

С50

Учебное пособие одобрено и рекомендовано методической комиссией агрономического факультета РГАУ-МСХА им. К.А. Тимирязева



Протокол № 23 от 17.03.2008

Рецензент – А.А. Миронов доктор биологических наук, профессор; А.Б. Рахманинова, кандидат биологических наук, доцент (факультет биоинженерии и биоинформатики Московского государственного университета им. М.В. Ломоносова)



Смиряев А.В., Панкина Л.К.

С50 Основы биоинформатики. Учебное Пособие. Издание 2-е исправленное – М., ФГОУ ВПО РГАУ – МСХА им. К.А. Тимирязева, 2013. - 120 с.

ISBN 978-5-9675-0214-9

В учебном пособии изложены методические основы биоинформатики – генетико–математические модели, методы, алгоритмы и компьютерный сервис. Рассмотрены основные задачи биоинформатики, ее значение для геномики растений, молекулярная филогенетика, выравнивание последовательностей, анализ вторичной структуры РНК и белков.

Пособие предназначено для подготовки магистров сельского хозяйства по направлениям «Агрономия», а также для курсов повышения квалификации специалистов в области генетики, селекции и биотехнологии.

1. Введение.

Биоинформатика как наука возникла в 80–х годах прошлого века на стыке молекулярной биологии, генетики, математики и компьютерных технологий. Важной предпосылкой послужила разработка быстрых методов секвенирования: появилась необходимость в хранении, систематизации и анализе большого объема новых экспериментальных данных.



Биоинформатика – это наука, использующая методы прикладной математики, прежде всего статистики, и информатики для решения проблем молекулярной биологии, возникающих, в частности при моделировании процессов эволюции и оптимизации селекционного процесса. Биоинформатику часто называют вычислительной молекулярной биологией. Она занимается системным анализом нуклеотидных последовательностей ДНК и РНК, а также аминокислотных последовательностей и структурой самих белков.

В настоящее время эта наука успешно развивается, что отразилось в большом количестве созданных за последние годы баз данных по биоинформатике. Журнал Nucleic Acids Research первый выпуск каждого года посвящает описаниям баз данных по молекулярной биологии, а июльский выпуск – программному обеспечению для анализа данных. По данным этого журнала за 2007 год общее количество серверов, перечисленных в каталоге ссылок по биоинформатике, более 1000.

Целью данного пособия является ознакомление студентов, изучающих генетику, селекцию и биотехнологию, с методическими основными биоинформатики. Более подробно рассмотрены модели, методы и алгоритмы выравнивания последовательностей, а также молекулярной филогенетики. Возможности предсказания пространственной структуры белков и РНК, ввиду их сложности, приведены без подробного рассмотрения.

Для того чтобы успешно овладеть представленным материалом студент должен знать основы общей генетики, теории вероятностей, математической статистики, моделирования, популяционной генетики, теории эволюции, информатики.


Основные задачи биоинформатики.

Биоинформатика – это быстро развивающаяся наука: постоянно возникают новые проблемы, задачи, подходы и методы. И все же среди задач можно выделить:



  1. Поиск сходства нуклеотидных или аминокислотных последовательностей;

  2. Анализ генома (определение белок – кодирующих участков, а также участков, кодирующих тРНК и рРНК; поиск участков ДНК, которые отвечают за регуляцию – сайты связывания регуляторных белков и др.);

  3. Предсказание вторичной структуры РНК;

  4. Предсказание структуры белков по их аминокислотным последовательностям;

  5. Филогенетическое сравнение форм – выяснение их родства.

  6. Создание и поддержание баз данных, инструментов для работы с ними, а также методов обработки массовых экспериментов.

Наряду с этим существуют задачи, связанные с протеомикой, анализом экспрессии, регуляции и др.

Анализ эукариотического генома включает определение экзон – интронной структуры и функций кодирующих генов. Затем выявляются альтернативные изоформы кодируемых мРНК и белков, регуляторные сигналы и др.

На каждом этапе необходимо применение генетико–математических моделей, методов и специальных компьютерных программ. Для предсказания кодирующей части генов используют программы, в основе которых лежит сравнение изучаемой последовательности с последовательностями известных белков, мРНК или ДНК, кодирующей гомологичные гены. Однако такие программы не всегда могут обнаружить гены, специфичные для нового генома, поэтому возникает необходимость дополнительно использовать сложный статистический анализ. Зная предполагаемую структуру гена, можно провести анализ структуры и функции кодируемого им белка.

Отдельным разделом биоинформатики является предсказание пространственной структуры белков. Точных методов предсказания трехмерной структуры белка по его аминокислотной последовательности пока нет. Однако существуют базы данных, которые содержат экспериментально полученную информацию о трехмерной структуре многих белков. На основе этой информации можно предсказать пространственную структуру гомологичного белка.

Предсказание пространственной структуры РНК сложнее, чем белков, и для этой цели разработаны специальные методы биоинформатики.

Решение поставленных задач невозможно без использования баз данных. Но поскольку молекулярно–генетических баз данных большое количество, многие имеют свой формат хранения данных и средства доступа к содержащейся в ней информации, то существует проблема интеграции. Возникает задача создания стандартов и программных средств, которые позволят пользователю быстро находить информацию на основе компьютерного анализа многих баз данных.

Поскольку решение поставленных задач предполагает использование различных программ и алгоритмов для анализа последовательностей, то возникает задача статистической оценки достоверности, надежности полученных выводов. Для этого можно использовать известные статистические критерии.

Конкретизируем применение биоинформатики на примере задач геномики растений.




Значение биоинформатики для геномики растений.

Геномика – направление современной молекулярной биологии и генетики, изучающее геномы видов. Выделяют структурную, функциональную и сравнительную геномику.

Цель структурной геномики – изучение содержания и организации геномной информации. Ее основная задача – секвенирование геномов и картирование. В настоящее время секвенирование геномов идет быстрыми темпами, и здесь возникает задача определения белок–кодирующих участков, участков, кодирующих тРНК и рРНК, секвенированных последовательностей нуклеотидов в молекуле ДНК. Значительную трудность представляет определение экзон – интронной структуры генов.

Геномы растений очень разнообразны по размерам, что связано с различиями в числе хромосом, плоидностью и наличием протяженных межгенных повторяющихся последовательностей. Эти особенности структурной организации хромосом растений существенно затрудняют состыковку секвенированных фрагментов ДНК в последовательно расположенные блоки (контиги) при построении полных физических карт хромосом. Однако установлено, что у таксономически близких видов растений наблюдается высокая степень консерватизма в составе генов, их линейном расположении и ориентации в хромосомах. Поэтому сравнив вновь полученные сегменты геномов с гомологичными сегментами какого–либо стандартного секвенированного генома (например, Arabidopsis thaliana) можно получить информацию о структурно–функциональной организации геномов.

Несмотря на секвенирование все большего числа геномов, конкретные функции подавляющего большинства генов пока неизвестны. Цель функциональной геномики – изучение реализации наследственной информации, закодированной в геноме (от гена к признаку). Ее основная задача – предсказание функции генов. Для определения предположительной функции гена по выявленной нуклеотидной последовательности моделируют трансляцию предполагаемого гена в аминокислотную последовательность белка. Затем осуществляют поиск в базах данных гомологичных белков (или консервативных белковых участков – доменов) с известной функцией.

Информацию о характере функционирования генома можно получить с помощью анализа баз данных кДНК и EST (частично секвенированных последовательностей кДНК) Получение EST и кДНК осуществляется на основе мРНК. В качестве источника мРНК используются разные части растений или культуры клеток. Анализируют функции генов растений, выращенных в определенных условиях (при воздействии стрессовых факторов, высоких и низких температур, разных условий освещения) или растений, находящихся на определенных стадиях развития. Поэтому, при наличии представительных баз данных по частоте встречаемости EST, соответствующих одному и тому же гену, можно судить о специфичности генной экспрессии. Сравнение баз данных EST разных видов растений позволяет выявлять гены, контролирующие особенности метаболизма, как общие, так и специфические для разных видов. Например, по данным 2007 года база Sputnik (http://mips.gsf.de/proj/sputnik/) содержит сведения о 4 млн. EST из 65 видов растений.

Основной задачей сравнительной геномики является сравнительный анализ структур геномов разных организмов. Сопоставление у разных видов нуклеотидных последовательностей отдельных участков ДНК и аминокислотных последовательностей функционально похожих белков позволяет выявить общие структурные фрагменты. Кроме того, сравнительный структурный анализ геномов разных растений дает возможности проводить филогенетические исследования и выяснять закономерности эволюции растений для решения вопросов геносистематики и ботаники.



Вопросы:

  1. Что такое биоинформатика, определение, для каких целей ее можно использовать?

  2. Перечислите основные задачи биоинформатики.

  3. Что такое геномика растений?

  4. Каковы основные цели структурной, функциональной и сравнительной геномики растений?

  5. Как можно использовать биоинформатику для решения задач геномики растений?


2.Базы данных.

База данных – это компьютерная системы хранения, поиска и выдачи нужной информации. К основным базам данных по биоинформатике относятся крупнейшие хранилища первичных структур ДНК и аминокислотных последовательностей (EMBL, GenBank, UniProt, SWISS–PROT и др.). В последнее время появилось много специализированных баз данных. Некоторые из них хранят информацию, полученную с помощью компьютерных методов обработки, результаты теоретических предсказаний. Существуют специализированные базы данных по отдельным регуляторным мотивам нуклеотидных последовательностей (например, энхансеры сплайсинга, процессинга/экспорта и т.д.), базы данных по экспрессии генов, библиотеки геномов, карт, последовательностей РНК, белков, белковых мотивов, по продукции белков. Есть базы данных по протеомике, структурам белков, мутациям, метаболическим путям и регуляции, по трансгеннным организмам, биохимии, а также по научной литературе к отдельным темам молекулярной биологии и генетики, по программному обеспечению для анализа данных.

Базы данных можно отнести к следующим типам:

1) Архивные.

К архивным относятся, например, базы данных GeneBank, EMBL, PDB. Любой исследователь может поместить туда свою информацию. За содержание каждой записи в таких базах отвечает сам исследователь.

GenBank – база данных генетических последовательностей, основанная в 1982 году. Это аннотированная коллекция всех общедоступных последовательностей ДНК, РНК и белков, снабженных литературными ссылками, и другой биологической информацией. Эта база является частью объединения International Nucleotide Sequence Database Collaboration, которое объединяет три крупнейшие коллекции нуклеотидных последовательностей: DDBJ (DNA Data Bank of Japan), EMBL (European Molecular Biology Laboratory) и GenBank (National Center for Biotechnology Information). Эти три организации ежедневно обмениваются новой информацией. Большинство журналов требуют предварительной посылки новых секвенированных последовательностей в любую из этих трех баз данных до опубликования статьей о них. В статьях, посвященных очередной порции последовательностей, должен упоминаться лишь номер последовательности в базе данных GenBank.

Адрес DDBJ: http://www.ddbj.nig.ac.jp/

Адрес GenBank: http://www.ncbi.nlm.nih.gov/Genbank/

EMBL (European Molecular Biology Laboratory) – эта база данных содержит разнообразную информацию о каждом фрагменте последовательностей, включая литературные ссылки, перекрестные ссылки на документы других баз данных и др.

Адрес EMBL: http://www.ebi.ac.uk/embl/

Еще одна архивная база данных – PDB (Brookhaven Protein DataBank) – содержит данные о коллекции экспериментально определенных трехмерных структур биологических макромолекул (белков и нуклеиновых кислот). С 2002 года в основном депозитарии PDB хранятся структуры, экспериментально определенные с помощью рентгеноструктурного, ядерно–магнитнорезонансного и др. методов. Теоретические структуры выделены в отдельную подбазу PDB.

Адрес: http://www.rcsb.org/pdb/

2) Курируемые базы данных.

За содержание записей в таких базах данных отвечают кураторы. Информацию для курируемых баз данных отбирают эксперты из архивных баз.

К курируемым базам относятся, например, SwissProt. Эта база данных белковых последовательностей существует с 1986 года и поддерживается двумя институтами: Swiss Institute of Bioinformatics (SIB) и European Bioinformatics Institute (EBI).

Адрес: http://www.ebi.ac.uk/swissprot/


3) Автоматические базы данных.

В таких базах данных записи генерируются (моделируются) компьютерными программами.

К ним относится, например TrEMBL (Translated EMBL) – автоматическая база предсказаний последовательностей белков. Это формальная трансляция всех кодирующих нуклеотидных последовательностей из банка EMBL.

В 2002 году в результате объединения SwissProt, TrEMBL и PIR был создан банк данных UniProt (Universal Protein Resourse). Это основное хранилище белковых последовательностей и их функций.

UniProt состоит из трех частей:

UniProt Knowlegebase – является центральной базой данных и обеспечивает доступ к обширной курируемой информации по белкам, включая их функцию, классификацию и перекрестные информационные ссылки;

UniProt Archive – UniParc. Отражает хронологию данных определения о всех белковых последовательностях;

UniProt Reference – UniRef. Содержит базы данных, которые объединяют последовательности в кластеры для ускорения поиска.

Адрес UniProt: http://www.ebi.uniprot.org/index.shtml
4) Производные базы данных.

Они получаются в результате компьютерной обработки данных из архивных и курируемых баз данных. Это, например, SCOP, PFAM, GO и др.

SCOP (Structural Classification Of Proteins) – база данных по структурной классификации белков.

Адрес: http://scop.protres.ru/

PFAM (Protein families database of alignments and HMMs) – это большая коллекция семейств белков и доменов, построенных на основании экспертной оценки множественных выравниваний (см. раздел 3). В банке существуют две основные части: PFAMA, содержащая подробно аннотированные белковые семейства, и PFAMB, содержащая различные множественные выравнивания.

Адрес: http://www.sanger.ac.uk/Pfam/

GO (Gene Ontology consortium database). Целью создателей базы было установление контроля за единообразием в описаниях функций, биологических процессов и клеточных компонентов, относящихся к продуктам генов. Унификация описаний в различных базах данных облегчает поиск в них нужного гена. GO – независимая база данных: другие базы данных сотрудничают с ней, помещая ссылки на унифицированные термины GO, либо поддерживают поиск с использованием терминов базы GO, а также стимулируют ее дополнение и уточнение.

Адрес: http://www.geneontology.org/


5) Интегрированные базы данных.

Они объединяют информацию из разных баз. Например, введя имя гена, можно найти всю, связанную с ним информацию.

К таким базам относится ENTREZ (Molecular Biology DataBase and Retrieval System). Эта интегрированная база данных содержит нуклеотидные и аминокислотные последовательности, которые собираются из крупнейших специализированных хранилищ – баз данных. Основой является GenBank, кроме того, информация пополняется из dbEST, dbSTS, SwissProt, PIR, PDB, PRF, GSDB. Данные из перечисленных ресурсов поступают в интегрированную базу данных после 1) присвоения уникального идентификатора последовательности, 2) перевода документов в единый стандарт хранения, 3) проверки данных, 4) проверки всех ссылок по базе данных MedLine, 5) проверки названий организмов по таксономической классификации GenBank Taxonomy.

Адрес ENTREZ: http://www.ncbi.nlm.nih.gov/Database/index.html


Описания многих баз данных по биоинформатике можно найти на русскоязычном сайте, который находится по адресу: http://www.jcbi.ru/index.html

При подаче запросов в большинство существующих программ последовательности должны быть представлены в стандарте IUB/IUPAC. Этот стандарт предусматривает условные обозначения нуклеиновых кислот и аминокислот, представленные в таблицах 2.1, 2.2.


Таблица 2.1. Обозначения, принятые для нуклеиновых кислот по стандарту IUB/IUPAC.

Обозна–чение

Название

Обозна–чение

Название

Обозна–чение

Название

А

adenine

R

G, A

(purine)


B

G, T, C

С

cytosine

Y

T, C

(pyrimidine)



D

G, A, T

G

guanine

W

A, T

H

A, C, T

T

thymine

K

G, T (keto)

N

A, G, C, T

U

uracil

S

G, C







M

A, C

(amino)


V

A, C, G






Таблица 2.2. Обозначения, принятые в однобуквенном коде аминокислот по стандарту IUB/IUPAC.



Обозна-чение

Название (англ.)

Название (рус.)

Обозна-чение

Название (англ.)

Название (рус.)

G

glycine

глицин

U

selenocysteine

селеноцистеин

H

histidine

гистидин

V

valine

валин

I

isoleucine

изолейцин

W

tryptophan

триптофан

K

lysine

лизин

Y

tyrosine

тирозин

L

leucine

лейцин

Z

glutamate or glutamine

глютамат или глютамин

M

methionine

метионин

*

translation stop

стоп–кодон

X

any

любая


Вопросы:

  1. Что такое база данных?

  2. Приведите классификацию баз данных в биоинформатике и охарактеризуйте каждый тип.

  3. В чем отличие интегрированных баз данных от других типов?


3. Выравнивание.

3.1. Основные определения.

Напомним, что мутации – основной источник первичной изменчивости для эволюции. Именно благодаря мутациям в популяциях возникает полиморфизм. Выделяют четыре основных типа мутационных изменений последовательностей ДНК без изменения групп сцепления: замена одного нуклеотида на другой, делеция нуклеотидов, вставка нуклеотидов и инверсия группы нуклеотидов.

При сравнении последовательностей мы, по существу, ищем свидетельства того, что они произошли из одной общей последовательности путем мутаций и отбора. Вставки и делеции вместе называются разрывами (gaps). При сравнении цепочек нуклеотидов они обозначаются знаком «–». Для определения родства двух заданных последовательностей необходимо провести их выравнивание. Выравнивание (аlignment) – это сопоставление двух и более последовательностей для определения их уровня идентичности с учетом как замен, так и вставок/делеций. Другими словами это способ написать последовательности друг под другом так, чтобы гомологичные (т.е. имеющие общее эволюционное происхождение) буквенные обозначения стояли друг под другом.

Если выравниваются две последовательности, то такое выравнивание называется парным (рair sequence alignment). А если проводят выравнивание трех или более последовательностей одновременно – множественным (multiple sequence alignment). Различают полное и частичное выравнивание. Полное или глобальное выравнивание (global alignment) – это выравнивание нуклеотидных или белковых последовательностей по их полной длине. Например, для двух аминокислотных последовательностей:


x) HEAGAWGHEE и y) PAWHEAE результат полного выравнивания может иметь вид

HEAGAWGHE –E

– –P– AW– HEAE
Частичное или локальное выравнивание (local alignment) – выравнивание части нуклеотидных или белковых последовательностей. Для вышеприведенных последовательностей x и y локальное выравнивание:
….AWGHE….

….AW– HE…


Используются разные алгоритмы и методы выравнивания. Эмпирическим показателем количественной оценки качества выравнивания является его вес (score). Чем выше вес, тем больше сходство между последовательностями и выше качество выравнивания. Оптимальное выравнивание (optimal alignment) – это выравнивание нуклеотидных или белковых последовательностей с самым высоким весом и имеющее биологический смысл. Вес выравнивания рассчитывается исходя из количества замен, с учетом разрывов и т.н. матрицы замен.

Достарыңызбен бөлісу:
  1   2   3   4   5   6   7   8   9   10   11




©dereksiz.org 2024
әкімшілігінің қараңыз

    Басты бет