Новые технологии в биомедицине: биоинформатика



бет1/4
Дата11.07.2016
өлшемі0.69 Mb.
#192413
түріИсследование
  1   2   3   4
НОВЫЕ ТЕХНОЛОГИИ В БИОМЕДИЦИНЕ: БИОИНФОРМАТИКА

Арчаков А.И., Поройков В.В., Белкина Н.В., Гусев С.А., Дубанов А.В.,
Иванов А.С., Лагунин А.А., Лисица А.В., Скворцов В.С., Соболев Б.Н.
НИИ биомедицинской химии РАМН, 19832, Москва, Погодинская ул., 10

РЕЗЮМЕ

Биоинформатика – область науки, разрабатывающая и применяющая вычислительные алгоритмы для анализа и систематизации генетической информации с целью выяснения структуры и функции макромолекул, с последующим использованием этих знаний для создания новых лекарственных препаратов.

В результате исследования структуры геномов микроорганизмов, млекопитающих и человека появились огромные объемы информации о последовательностях ДНК и первичной структуре белков. Эта информация стала основой для разработки и приложения новых математических методов анализа данных и извлечения из них новых знаний.



Цели биоинформатики, как области науки о жизни:

Анализ геномов, выделение в их составе отдельных генов, их экзон- интронной структуры, сигнальных последовательностей и т.д.;

Предсказание функции генов и экспрессируемых ими продуктов;

Выявление генов - потенциальных мишеней действия новых лекарств;

Оценка роли отдельных участков аминокислотной последовательности в функционировании белка;

Построение молекулярных моделей белков и нуклеиновых кислот, исходя из их последовательностей;

Исследование механизма функционирования макромолекул, исходя из их молекулярных моделей;

Компьютерное конструирование лекарств, основанное на рациональном выборе генов-мишеней и молекулярных моделей их белковых продуктов.

По сути дела, все эти задачи решаются с помощью математического анализа биологических текстов – последовательностей нуклеиновых кислот и первичной структуры белков.

Современное понимание биоинформатики подводит нас к мысли о том, что все те задачи, которые до недавнего времени решались биохимией и молекулярной биологией в реальных экспериментах, в будущем могут быть решены с той или иной степенью точности в виртуальных компьютерных экспериментах.

Поэтому основная задача биоинформатики в настоящее время сводится к разработке новых и адаптации уже существующих методов для работы с генетической информацией. Решение проблем "разметки" генома, предсказания функции отдельных генов и их продуктов, построения молекулярных моделей белков и нуклеиновых кислот служит основой для рационального компьютерного дизайна новых лекарств. Таким образом, экономической базой биоинформатики являются фармацевтическая промышленность и биотехнология.

Получение предсказанных компьютерным путем макромолекул-фармакологических мишеней для действия лекарственных веществ - с помощью трансгенных животных и, особенно, растений, с одной стороны, и быстрый компьютерный поиск с последующим конструированием низкомолекулярных лигандов с высоким сродством к активным центрам этих молекул, с другой – способны качественным образом изменить содержание как современной биотехнологии, так и фармакологии.



1. ВОЗНИКНОВЕНИЕ БИОИНФОРМАТИКИ

Биоинформатика – область науки о компьютерном анализе генетических текстов, аминокислотных последовательностей, пространственной структуры и функции белков, являющаяся основой для идентификации макромолекул-мишеней и выявления их специфических лигандов с целью создания новых лекарств, превратилась в бурно развивающуюся область биомедицинской науки на стыке XX-XXI веков (Benton, 1996).

Количество публикаций по биоинформатике, оцененное по информационной системе MEDLINE, стремительно нарастает в последние годы (рис.1).

 

 Рис.1. Динамика публикаций по биоинформатике, оцененная по информационной системе MEDLINE

Симптоматично, что на страницах общенаучных журналов Nature и Science, обладающих одними из наиболее высоких импакт-факторов (превышающих 25), за последние годы было опубликовано соответственно 199 и 93 публикации, затрагивающих вопросы биоинформатики.

Из приведенных на рис.1 данных, однако, не следует, что первые работы в данной области были начаты лишь в 1993 году. Скорее этот период явился результатом осознания качественного изменения ситуации – перехода от разрозненных теоретических работ, анализирующих нуклеотидные и аминокислотные последовательности, пространственную структуру белка, взаимосвязи "структура-функция", "структура-активность"; и попыток рационального конструирования новых лекарств – к комплексному подходу, охватывающему всю цепочку "от гена – к лекарству". В результате появился и сам термин (молекулярная) "биоинформатика".

База для реализации такого комплексного подхода создавалась в течение многих лет усилиями многочисленных исследователей. Первые работы по теоретическому анализу аминокислотных последовательностей белков появились уже в пятидесятых годах вскоре после определения первичной структуры нескольких белков (Augenstine., 1953; Gamov, 1956). Расшифровка пространственной структуры инсулина (Hodgkin, 1936), а также гемогобина (Perutz, 1958) и миоглобина (Kendrew, 1959) методами рентгеноструктурного анализа положила основу для теоретического анализа взаимосвязей между пространственной структурой и функциями белка. Широкое внедрение в структурный анализ белка автоматических секвенаторов в начале 70-х годов существенно увеличило возможности экспериментального определения аминокислотных последовательностей. Существенно возрос и объем материала, доступного для теоретического осмысления.

Параллельно расшифровке аминокислотных последовательностей белков развивались и исследования структуры нуклеиновых кислот. Накопление информации происходило достаточно быстро и в 1988 г. был начат проект по расшифровке генома человека, ставящий своей целью определение полной последовательности ДНК, составляющей хромосомы человека. Работы по этому проекту проводятся достаточно успешно и, по существующим оценкам, в 2001-2002 г.г. геном человека будет расшифрован полностью. Предполагается, что в результате этих работ число известных мишеней действия лекарств увеличится на порядок и достигнет 5000 (Investigational Drugs Weekly Highlights, 16 June 1999, p.20).

Сравнительные оценки размеров геномов человека и других исследованных организмов приведены ниже:

Человек 3000 млн. оснований (100 тыс.генов)


Мышь 3000 млн. оснований (50-100 тыс. генов)
Дрозофила 165 млн. оснований (15-25 тыс. генов)
Нематода 100 млн. оснований (11.8-13.8 тыс.генов)
Дрожжи (грибы) 14 млн. оснований (8355-8947 генов)
E. coli (бактерия) 4.67 млн оснований (3237 генов)
H. influenzae (бактерия) 1.8 млн. оснований
M. genitalium (бактерия) 0.58 млн оснований

К настоящему моменту полностью расшифрованы геномы ряда микроорганизмов (Human Genome News, 1998):



Полностью расшифрованные геномы

Организм

Размер генома (Mb)

Число генов

Saccharomyces cerevisiae

12.1

6034

Escherichia coli

4.6

4288

Bacillus subtilus

4.2

~4000

Synechocystis sp.

3.6

3168

Archaeoglobus fulgidus

2.2

2471

Pyrobaculum aerophilum

2.2

N.A.

Haemophilus influenzae

1.8

1740

Methanobacterium thermoautotrophicum

1.8

1855

Helicobacter pylori

1.7

1590

Methanococcus jannaschii

1.7

1692

Aquifex aolicus

1.5

1508

Borrelia burgdorferi

1.3

863

Treponema pallidum

1.1

1234

Mycoplasma pneumoniae

0.8

677

Mycoplasma genitalium

0.6

470

Treponema pallidum

1.14

 

Chlamydia trachomatis

1.05

 

Plasmodium falciparum Chr2

1

 

Rickettsia prowazekii

1.1

 

Helicobacter pylori

1.64

 

Leishmania major chr1

.27

 

Thermotoga maritima

1.8

 

Sphingomonas aromaticivorans

 

 

Pyrococcus furiosus

2.1

 

Halobacterium halobium

1.7

 

Clostridium acetobutylicum

4.1

 

Deinococcus radiodur ans

3

 

В настоящее время большая часть расшифрованных аминокислотных последовательностей белков "транслирована" с нуклеотидных последовательностей, соответствующих кодирующим областям геномов.

Насколько точной должна быть расшифровка нуклеотидных последовательностей, чтобы эти данные можно было использовать в прикладных целях? – Большинство авторов работ по секвенированию, проводимых в настоящее время, стремится к тому, чтобы частота ошибок была не более чем 1 на 10000 пар нуклеотидных оснований, а в некоторых случаях считается необходимым достичь точности 1 на 100000. Однако, индивидуальные различия составляют в среднем 1 на 500 пар оснований, поэтому при реализации проекта по полному секвенированию генома считается, что 1 ошибка на 1000 – более адекватная оценка приемлемой точности. В то же время, для повышения надежности и выявления возможных индивидуальных различий наиболее биологически- или медицински-значимые области генома должны быть исследованы более тщательно, но использование более грубого стандарта для других участков генома существенно снижает стоимость расшифровки генома человека в целом.



Накопление огромного количества аминокислотных и нуклеотидных последовательностей привело к возникновению биоинформатики – области науки, направленной на их сравнительный анализ с целью определения структурно-функциональных взаимоотношений и выявления мишеней действия новых лекарств. Существенно, что для значительного числа белков, кодируемых расшифрованными генами, не известны ни физиологическая роль в организме, ни их месторасположение в клетке. Во многих случаях невозможно даже сказать, экспрессируются ли эти белки в процессе нормальной жизнедеятельности. Ответ на последний вопрос дает новая область науки – протеомика, которая определяет экспериментально всю совокупность белков, встречающихся в отдельных клетках и тканях у человека (в норме и при патологии), млекопитающих и микроорганизмов.

Дополнительную к протеомике информацию получают теоретическими методами с помощью биоинформатики, анализирующей нуклеотидные и аминокислотные последовательности, на основе которой в последние годы сформировалась вся цепочка исследований "от гена - к лекарству":



анализ генома человека в норме и при патологиях либо анализ генома патогенных микроорганизмов;

выявление генов, кодирующих макромолекулы – потенциальные мишени новых лекарств;

анализ аминокислотных последовательностей макромолекул-мишеней, выдвижение гипотез о их функции, если последняя не определена в эксперименте;

экспериментальное определение или компьютерное построение моделей пространственной структуры макромолекулы-мишени;

поиск в базах данных низкомолекулярных органических веществ потенциальных лигандов, моделирование их взаимодействия с макромолекулой-мишенью и сравнительная оценка прочности связывания в комплексе.

Биоинформатика – бурно растущая область науки, что легко проиллюстрировать, например, по количеству web-сайтов в Интернете, содержащих данное ключевое слово, которое, согласно поисковой системе Alta Vista, в октябре 1999 года составляет 134630 web-сайтов. Возможно, наиболее важными среди них являются web-сайты, содержащие информацию по нуклеотидным и аминокислотным последовательностям, которые будут рассмотрены ниже более подробно.

В то же время, несмотря на достигнутые успехи в расшифровке пространственной структуры биологических макромолекул, разрыв между количеством данных о нуклеотидных и аминокислотных последовательностей и числом расшифрованных трехмерных структур стремительно растет (рис.2-4).

 Рис. 2. Рост числа записей в базе данных по нуклеотидным последовательностям (EMBL) с 1985 по 1999 годы.

 

Рис.3.  Рост числа аминокислотных последовательностей в базах данных PIR (1), SWISS-PROT (2) и числа трехмерных структур в базе данных  PDB (3) с 1986 по 1999 гг.

  

 Рис.4 Число записей на октябрь 1999 года в банках данных по трехмерным структурам белков (PDB), аминoкислотным (SWALL) и нуклеотидным (EMBL) последовательностям.

Существует также разрыв между количеством открытых генов и знаниями о их функции. В докладе Р.Скотта (Incyte Pharmaceuticals Inc., USA) на конференции "Discovery 99: Accelerate and Improve Drug Discovery Process" (Сан-Диего, США, 26-29 апреля 1999 года) была представлена следующая статистика: всего открыто свыше 109000 генов; возможно, еще около 20000 будет найдено в ближайшие годы; функция известна – менее чем для 40% из этих генов (Investigational Drugs Weekly Highlights, 12th May, 1999, p.36).



2. АНАЛИЗ СУЩЕСТВУЮЩИХ БАЗ ДАННЫХ: НАСТОЯЩЕЕ И БУДУЩЕЕ.

Необходимо подчеркнуть, что в отличие от традиционной библиографической научно-технической информации, собираемой и распространяемой на печатных носителях и в электронной форме такими информационными службами как National Library of Medicine (US), Chemical Abstracts Service (US), BIOSIS (US), Excerpta Medica (The Netherlands), ВИНИТИ (Россия), МЦНТИ (Россия) и др., данные по биоинформатике являются фактографическими и гораздо более тесно привязаны к источникам их происхождения. По этой причине все известные в настоящее время базы данных по биоинформатике созданы и поддерживаются либо специально созданными для этой цели организациями, например European Molecular Biology Laboratory (Germany), European Bioinformatics Institute (UK), GenBank (US), National Center for Biotechnology Information (US), DNA DataBank of Japan (Japan) и др., либо функционируют на базе известных научно-исследовательских учреждений, ведущих экспериментальные работы в области биохимии и молекулярной биологии, например, National Institute of Allergy and Infectious Diseases, NIH (USA); Institute of Pharmaceutical Chemistry, University of Marburg (Germany); Department of Biochemistry, Kumamoto University School of Medicine (Japan); Институт цитологии и генетики СО РАН (Новосибирск), Институт биомедицинской химии РАМН (Москва), Институт физико-химической биологии МГУ им. А.Н.Белозерского и др. Как правило, в первом случае обеспечивается функционирование общих банков данных (БД) по биоинформатике, содержащих информацию о самых разных последовательностях белков и нуклеиновых кислот (GenBank, SWISS-PROT, и др.), а во втором – специализированных банков данных (БД по кодирующим ДНК цитокинов, БД по лиганд-рецепторным взаимодействиям, БД по цитохромам Р450, и т.д.).

Поскольку информация по биоинформатике весьма разнообразна и многоаспектна, такое "разделение труда" представляется целесообразным, поскольку благодаря этому обеспечивается наиболее высокий уровень экспертной оценки данных. Вместе с тем, в настоящее время остро стоит проблема интеграции информации (Karp, 1996), содержащейся в различных банках данных, которая успешно решается как путем стандартизации представления информации, так и благодаря созданию необходимых конверторов. Пример системы обработки информации из различных фактографических и библиографических банков данных, созданной в EMBL, приведен на рисунке 5.

Разработанная в EMBL компьютерная система обеспечивает работу с информацией из примерно 50 общих и специализированных банков данных, доступных через Интернет (рис.5).

Некоторые примеры существующих в настоящее время банков данных по биоинформатике приведены в таблице 1.

По-видимому, в будущем сохранится тенденция, когда наряду со сравнительно небольшим количеством глобальных (общих) банков данных, содержащих ограниченный объем информации по большому числу аминокислотным и нуклеотидным последовательностям, будет расти число специализированных банков данных, содержащих большой объем разнообразной информации по отдельным категориям аминокислотных и нуклеотидных последовательностей, относящимся к узкой предметной области.

В то же время, будут интенсивно развиваться и поисковые системы, собирающие и интегрирующие информацию в соответствии с конкретными запросами пользователей из многочисленных (общих и специализированных) банков данных.



Рис. 5. Взаимосвязи в компьютерной системе Европейской лаборатории по молекулярной биологии, осуществляющей интеграцию и обработку данных по нуклеотидным и аминокислотным последовательностям из большого числа различных банков данных

Таблица 1

Примеры банков данных по биоинформатике

Наименование БД

Web-сайт

Краткое описание

GenBank

http://www.ncbi.nlm.nih.gov/Genbank/

GenbankOverview.html



БД по нуклеотидным последовательностям (3400000000 пар оснований в 4610000 последовательностях)

SWISS-PROT

http://www.expasy.ch/sprot/sprot-top.html

Аннотированный БД по аминокислотным последовательностям белков

PIR

http://www-nbrf.georgetown.edu/pir/searchdb.html

 


Аннотированный БД по аминокислотным последовательностям белков, организованным в соответствии с гомологией и таксономией

PDB

http://www.rcsb.org/pdb/

БД по 3D структуре биологических макромолекул

(10811 структур)



OWL

http://www.biochem.ucl.ac.uk/bsm/dbbrowser/OWL/OWL.html

 


Невырожденная комплексная БД по структурам белков из SWISS-PROT, PIR (1-3), GenBank и NRL-3D

NDB

http://ndbserver.rutgers.edu

 


БД по нуклеиновым кислотам, включает структуры ДНК и РНК вместе с их трехмерными изображениями

PROSITE

http://www.expasy.ch/prosite

 


БД паттернов функционально значимых участков белков

ProDom

http://protein.toulouse.inra.fr/prodom.html

БД по доменам белков

Protein Motions Database

http://hyper.stanford.edu/~mbg/ProtMotDB

 


БД по динамике белков, включающая многоуровневую классификацию движения петель, доменов и субъединиц

PROMISE

http://bioinf.leeds.ac.uk/promise

 


БД по простетическим группам и ионам металла в активных центрах белков

RELIBASE

http://www-relibase.darmstadt.gmd.de/gmd/

 


Полная БД по лиганд-рецепторным комплексам

HIV Molecular Immunology Database

http://hiv-web.lanl.gov/immunology/index.html

 


БД по иммунологии вируса иммунодефицита человека

OMIM

http://www.ncbi.nlm.nih.gov/Omim/

 


Каталог генов человека и генетически обусловленных заболеваний

CPD

http://cpd.ibmh.msk.su/

БД по цитохромам Р450

KeyLock

http://lmgdd.ibmh.msk.su/KeyLock/KeyLock.html

 


БД по взаимодействию "лиганд-рецептор"

LIGAND

http://www.genome.ad.jp/dbget/ligand.html

 


БД по ферментативным реакциям

dbCFC

http://cytokine.medic.kumamoto-ac.jp

БД по кодирующим ДНК цитокинов

ReLiBase

http://www2.evi.ac.uk:8081/home.html

 


БД по анализу лиганд-рецепторных комплексов в PDB

MHCPEP

http://wehih.wehi.edu.au/mhpep

 


БД по пептидам, связывающим главные комплексы гистосовместимости

Klotho

http://www.ncbi.nlm.nih.gov/Omim/

 


БД по биохимическим веществам


Достарыңызбен бөлісу:
  1   2   3   4




©dereksiz.org 2024
әкімшілігінің қараңыз

    Басты бет