Биоинформатика и высокопроизводительные вычисления

жүктеу/скачать 218.28 Kb.

Дата	11.07.2016
өлшемі	218.28 Kb.
	#192414

БИОИНФОРМАТИКА И ВЫСОКОПРОИЗВОДИТЕЛЬНЫЕ ВЫЧИСЛЕНИЯ
Введение

Главной целью обзора является введение в круг проблем, решаемых современной компьютерной биологией. В биологических исследованиях компьютеры и суперкомпьютеры становятся все более самостоятельным инструментом познания и получения прикладных результатов. Это обстоятельство не вполне осознается не только учеными, работающими в смежных областях, но и самими биологами. Причинами этого является как исключительно быстрое развитие самой вычислительной техники, в частности, появление суперкомпьютеров с параллельной архитектурой [1-5], так и рост ее применения в биологии. Несмотря на широкий фронт использования компьютеров в биологии [6, 7] в нем можно выделить главные направления, определяющие развитие таких областей знания, как молекулярная биология и биохимия.

Особое внимание в обзоре уделяется работам по компьютерной биологии, ведущимся в России, так как успех или отставание в этой области во многом определяют будущее развитие биологии в нашей стране.

Задачи компьютерной биологии

В чем же причина необходимости использования суперкомпьютеров в биологии? Прежде всего отметим, что в начале 90-х годов начала выполняться научная программа расшифровки генома человека, в которую были вложены огромные средства. В настоящее время эта программа находится в стадии своего завершения. Напомним, что под расшифровкой генома человека понимается определение последовательности нуклеотидных пар в молекуле ДНК.

Молекула ДНК представляет собой биополимер, элементарным звеном которого является нуклеотидная пара. Число таких звеньев в ДНК человека около 3·10⁹. В настоящее время скорость расшифровки составляет примерно 10⁸ нуклеотидных пар в год и через полтора-два года структура ДНК будет полностью расшифрована (Рис.1).

Уже сейчас объявлено, что следующий этап, рассчитанный на 10-15 лет, стартует в начале 21 века. Он получил название "структурный геном". Речь идет о расшифровке первичной и пространственной структуры всех белков, входящих в состав человеческого организма. Выполнение этой программы в принципе невозможно без использования высокопроизводительных вычислительных систем. В настоящее время расшифрована структура около десятка тысяч белков, в то время как число различных белков в организме человека составляет сотни тысяч. Знание первичной и пространственной структур белков играет решающую роль для понимания их функционирования. В частности, знание пространственной структуры лежит в основе современной технологии создания лекарств (так называемый "drug design").

К числу основных вычислительных задач компьютерной биологии в настоящее время относятся:

Распознавание белок-кодирующих участков в первичной структуре биополимеров. Сравнительный анализ первичных структур биополимеров.

Расшифровка пространственной структуры биополимеров и их комплексов. (Рентгеноструктурный анализ, методы ЯМР).

Пространственное сворачивание белков (3D-фолдинг).

Моделирование структуры и динамики биомакромолекул.

Создание и сопровождение специализированных баз данных (баз белковых структур, нуклеотидных последовательностей, путей метаболизма, клеточных ансамблей и др.).

На Рис.2 показано соответствие между молекулярной и компьютерной биологией.

Остановимся подробнее на перечисленных задачах.

Первичные структуры. Проблемы, связанные с анализом первичной структуры, в первую очередь касаются вопросов распознавания белок-кодирующих областей (генов) уже отсеквенированных последовательностей нуклеотидов в молекуле ДНК.

a t g g t g c a t t t t a c t g c t g a g g a g a a g g c t g c c g t c a c t a g c c t g t g g a g c a a g a t g a a t g t g g a a g a g g c t g g a g g t g a a g c c t t g g g c a g g t a a g c a t t g g t t c t c a a t g c a t g g g a a t g a a g g g t g a a t a t t a c c c t a g c a a g t t g a t t g g g a a a g t c c t c a a g a t t t t t t g c a t c t c t a a t t t t g t a t c t g a t a t g g t g t c at t t c a t a g a c t c c t c g t t g t t t a c c c c t g g a c c c a g a g a t t t t t t g a c a g c t t t g g a a a c c t g t c g t c t c c c t c t g c c a t c c t g g g c a a c c c c a a g g t c a a g g c c c a t g g c a a g a a g g t g c t g a c t t c c t t t g g a g a t g c t a t t a a a a a c a t g g a c a a c c t c a a g c c c g c c t t t g c t a a g c t g a g t g a g c t g c a c t g t g a c a a g c t g c a t g t g g a t c c t g a g a a c t t c a a g g t g a g t t c a g g t g c t g g t g a t g t g a t t t t t t g g c t t t a t a t t t t g a c a t t a a t t g a a g c t c a t a a t c t t a t t g g a a a g a c c a a c a a a g a t c t c a g a a a t c a t g g g t c g a g c t t g a t g t t a g a a c a g c a g a c t t c t a g t g a g c a t a a c c a a a a c t t a c a t g a t t c a g a a c t a g t g a c a g t a a a g g a c t a c t a a c g c c t g a a t t g g c t t a a c t t t t c a g g a a a t c t t g c c a g a a c t t g a t g t g t t t a t c c c a g a a a t t g t a t t a t a g a a t t g t a g a c t t g t g a a a g a a g a a t g a a a t t t g g c t t t t g g t a g a t g a a a g t c c a t t t c a a g g a a a t a g a a a t g c c t t a t t t t a t g t g g g t c a t g a t a a t t g a g g t t t a g a a g a g a t t t t t g c a a a a a a a a t a a a a g a t t t g c t c a a a g a a a a a t a a g a c a c a t t t t c t a a a a t a t g t t a a a t t t c c c a t c a g t a t t g t g a c c a a g t g a a g g c t t g t t t c c g a a t t t g t t g g g g a t t t t a a a c t c c c g c t g a g a a c t c t t g c a g c a c t c a c a t t c t a c a t t t a c a a a a a t t a g a c a a t t g c t t a a a g a a a a a c a g g g a g a g a g g g a a c c c a a t a a t a c t g g t a a a a t g g g g a a g g g g g t g a g g g t g t a g g t a g g t a g a a t g t t g a a t g t a g g g c t c a t a g a a t a a a a t t g a a c c t a a g c t c a t c t g a a t t t t t t g g g t g g g c a c a a a c c t t g g a a c a g t t t g a g g t c a g g g t t g t c t a g g a a t g t a g g t a t a a a g c c g t t t t t g t t t g t t t g t t t g t t t t t t c a t c a a g t t g t t t t c g g a a a c t t c t a c t c a a c a t g c c t g t g t g t t a t t t t g t c t t t t g c c t a a c a g c t c c t g g g t a a c g t g a t g g t g a t t a t t c t g g c t a c t c a c t t t g g c a a g g a g t t c a c c c c t g a a g t g c a g g c t g c c t g g c a g a a g c t g g t g t c t g c t g t c g c c a t t g c c c t g g c c c a t a a g t a c c a c t g a

Рис. 3. Распознавание белок-кодирующих областей в геномах. Человеческий γ-гемоглобин.

На Рис.3 показана нуклеотидная последовательность человеческого γ-гемоглобина. Основная задача состоит в выделении в этой последовательности осмысленных участков - генов. На Рис.3 такой участок (экзон) выделен жирным шрифтом. Обычным шрифтом показана некодирующая область (интрон). Основная трудность в выделении генов состоит в определении экзон-интронной структуры эукариот (организмов, клетки которых имеют ядро), поскольку кодирующие и некодирующие участки не выделены однозначно. Постгеномная эпоха ставит проблему расшифровки геномов огромного числа микроорганизмов. К настоящему моменту полностью расшифрованы геномы нескольких десятков микроорганизмов [8] (Табл.1). Однако из 100000 генов, которыми обладает человек, в настоящее время расшифровано около 10%.

Табл.1. Примеры полностью расшифрованных геномов различных организмов
(приведены только геномы длиной свыше 1.5 МБ)

	Organism	Размер генома в кБ	Число генов
Архебактерии	Methanococcus jannaschii	1664	1750
	Methanobacterium thermoautotrophicum	1751	1918
	Archaeoglobus fulgidus	2178	2493
	Pyrococcus horikoshii(shinkaj)	1738	1979
	Aeropyrum pernix	1669	2620
	Pyrococcus abyssi	1765	1765
Бактерии	Haemophilus influenzae	1830	1850
	Synechocystis sp.	3573	3168
	Escherichia coli	4639	4289
	Helicobacter pylori	1667	1590
	Bacillus subtilis	4214	4099
	Aquifex aeolicus	1551	1544
	Mycobacterium tuberculosis	4411	4402
	Helicobacter pylori	1643	1495
	Thermotoga maritima	1860	1877
	Deinococcus radiodurans	3284	3187
	Campylobacter jejuni	1641	2106
	Neisseria meningitidis	2272	2158
Эукариоты	Saccharomyces cerevisiae	12069	6294
	Caenorhabditis elegans	97000	1909
	Drosophila melanogaster	137000	1410

С математической точки зрения поставленная проблема относится к задаче распознавания. В Институте математических проблем биологии РАН (ИМПБ РАН) совместно с Институтом белка РАН, НИИ "Генетика" и Университетом Южной Калифорнии (США) был разработан комплекс программ распознавания белок-кодирующих областей у эукариот, включающих программы GREAT и CASSANDRA, ориентированные на решение основных проблем, возникающих при анализе новосеквенированных последовательностей [10]. Имеется задел для работ по распознаванию, проверке качества распознавания и отсева из имеющихся баз данных ошибочно определенных начал генов прокариот. Это открывает возможности создания в России собственных банков данных более высокого качества, чем ныне существующие за рубежом и интегрирования в мировой процесс создания баз знаний по биологии.

В настоящее время наиболее эффективным методом определения биологической функции гена является поиск одинаковых последовательностей в базах данных нуклеотидных последовательностей ДНК. Распараллеливание вычислений и использование суперкомпьютеров для решения подобного рода задач позволит не только в сотни раз повысить скорость расшифровки первичных структур, но и сделать открытия, вытекающие из анализа гомологичных последовательностей, обычным делом.

Другой важной проблемой, тесно связанной с программой структурного генома, является проблема сравнения аминокислотных последовательностей ("выравнивание"). Речь идет об идентификации похожих участков аминокислотных последовательностей первичной структуры белков. В этом случае также приходится работать с большими массивами данных. По сравнению со случаем расшифровки генома, сложность решаемой комбинаторной задачи [9] состоит в том, что вместо четырехбуквенного нуклеотидного алфавита приходится иметь дело с двадцатибуквенным аминокислотным алфавитом. На Рис.4 показано выравнивание аминокислотных последовательностей инсулина из различных организмов

Рис. 4. Выравнивание аминокислотных последовательностей инсулинов из различных организмов.

Сравнение последовательностей исключительно важно для выяснения степени гомологии белков, т.е. информации, первостепенной для решения проблемы их пространственного сворачивания (фолдинга). Решение проблемы фолдинга, т.е. предсказание пространственной структуры белка по его аминокислотной последовательности, является одним из перспективных подходов к решению задач программы структурного генома. В свою очередь, знание пространственной структуры белков чрезвычайно тесно связано с их функционированием. В частности, без такого знания невозможно создание на основе современной компьютерной технологии новых типов лекарств.

Все эти задачи предъявляют высокие требования к быстродействию и объему памяти используемых вычислительных средств, еще более возрастающие в связи с завершением расшифровки геномов ряда организмов, каждый из которых содержит сотни миллионов нуклеотидов (Табл.1). Время и объем памяти, используемые различными алгоритмами исследования первичных структур биополимеров, как правило, растут как квадрат или куб длины исследуемой первичной структуры, а в ряде случаев, например, в задаче множественного сравнения, рост сложности вычислений с длиной последовательности еще более быстрый. Переход к более точным методам и анализу больших объемов данных требует доступа к вычислительным ресурсам, которые могут быть обеспечены только суперкомпьютерами. Так, например, для последовательности, содержащей 10⁵ пар оснований и 10⁴ структур (каждая длиной 10³ аминокислотных остатков) при квадратичной зависимости скорости вычислений от длины первичной структуры необходимо выполнить 10¹⁵ операций. Для решения таких задач требуются суперкомпьютеры производительностью в сотни терафлоп.

Рентгеноструктурный анализ белков

В настоящее время рентгеноструктурный анализ (РСА) является основным методом определения пространственной структуры биологических макромолекул (белков, вирусов, нуклеиновых кислот) и их комплексов при атомном разрешении. Процедура расшифровки структуры этим методом является сложным и дорогостоящим процессом, включающим в себя:
а) выделение и очистку белка;
б) кристаллизацию очищенного белка;
в) рентгеноструктурный эксперимент;
г) компьютерную расшифровку структуры

Рис. 5. Молекула белка состоит из длинной полипептидной цепи, сложным образом закрученной в пространстве.

Компьютерная часть является необходимой составляющей процесса расшифровки структуры, поскольку данные, полученные в рентгеновском эксперименте, содержат только часть информации, необходимой для реконструкции распределения плотности в молекуле белка (Рис.5). Эксперимент позволяет определить лишь интенсивности лучей, рассеянных под различными углами по отношению к исследуемому образцу. Как правило, это десятки и сотни тысяч измерений. Однако для восстановления структуры необходимо знать также и значения сдвигов фаз рассеянных лучей. Эти сдвиги фаз не могут быть зарегистрированы экспериментально. Существующие в настоящее время в макромолекулярной кристаллографии подходы к решению этой проблемы основаны либо на получении химическим путем изоморфных модификаций исследуемого белка и проведения с ними дополнительных рентгеновских экспериментов, либо на наличии в белке аномально рассеивающих атомов, либо на известной структуре белка, гомологичного исследуемому. Такая дополнительная информация позволяет получить приближенные значения фаз рассеянных лучей и затем приближенные значения координат атомов в исследуемом объекте. Полученные координаты подвергаются уточнению, которое представляет собой сложную вычислительную задачу и сводится к поиску локального минимума в пространстве 10⁴-10⁶ переменных. Понятно, что такая задача предъявляет серьезнейшие требования к мощности используемых компьютеров. Применение указанных выше подходов сталкивается с особенно большими сложностями при работе с большими макромолекулярными комплексами, представляющими особый интерес для биологии и медицины.

Работы по расшифровке структуры белков на основе рентгеновских данных в ИМПБ РАН ведутся более 20 лет. Разработанные в ИМПБ РАН методы и программы были применены при расшифровке структур г-кристаллина (белок, входящий в состав хрусталика глаза) (совместно с Институтом белка РАН), актиноксантина (совместно с Институтом биоорганической химии РАН), лектина (совместно с Институтом молекулярной генетики РАН), эндонуклеазы (совместно с Институтом кристаллографии РАН) и др.

В последние десять лет значительный интерес в мировой кристаллографии проявляется к попытке снять ограничения, налагаемые существующими подходами к решению фазовой проблемы, и уменьшить объем экспериментальной работы за счет использования более сложного математического аппарата и высокопроизводительных компьютеров. Однако применимость таких методов все еще ограничена структурами, содержащими не более, чем несколько сотен атомов. Задача определения ультраструктур становится более посильной, если ставить вопрос не о детальном виде с определением координат каждого атома, а об общем виде структуры комплекса. С точки зрения рентгеноструктурного анализа, речь идет о решении фазовой проблемы для данных рассеяния в ограниченном диапазоне углов рассеяния. Структуры, определенные при "низком" разрешении, могут в дальнейшем использоваться как стартовые при их последующей детальной расшифровке и могут представлять, кроме того, самостоятельный интерес для медицины. В ИМПБ РАН разрабатывается новый подход к определению структуры таких комплексов, основанный на рассмотрении большого набора ансамблей фаз и последующей фильтрации (Рис.6) получаемых наборов структур с применением дополнительных математических критериев. Такой подход требует, с одной стороны, значительных компьютерных мощностей, но допускает, с другой стороны, эффективное распараллеливание вычислений. Основанные на таких принципах компьютерные программы, созданные в ИМПБ РАН, успешно использовались при расшифровке структуры частицы липопротеина, проводимой в сотрудничестве с немецкими и французскими лабораториями.

Рис. 6. Фильтры основаны на математических свойствах распределений электронной плотности в белках (топологические свойства, статистическое правдоподобие и т.д.)

Для выяснения механизмов биологического действия белков и их целенаправленной модификации необходимо определение их пространственного строения и динамических конформационных характеристик в условиях максимального приближения к физиологической среде. Наиболее эффективным методом решения этих задач является спектроскопия ядерного магнитного резонанса (ЯМР). В отличие от рентгеноструктурного анализа в случае ЯМР спектроскопии отсутствуют этапы а) и б). В Институте биоорганической химии РАН (ИБХ РАН) расшифрованы структуры десятков белков, разрабатываются компьютерные методы анализа с использованием параллельных вычислений, позволяющие значительно ускорить этот процесс.

Фолдинг белков

Предсказание пространственной структуры белков по аминокислотной последовательности, т.е. фактически по последовательности нуклеотидных пар в ДНК, является одной из центральных задач компьютерной биологии. Важность решения этой задачи состоит еще и в том, что число известных первичных белковых структур, установленных по известным нуклеотидным последовательностям ДНК, намного превосходит число известных пространственных белковых структур.

Формально, зная взаимодействие между отдельными атомами в полипептидной цепи с известной первичной структурой и окружающими такую цепь молекулами растворителя, путем минимизации свободной энергии всей системы можно было бы найти искомую структуру. Даже для небольшого белка это задача поиска глобального минимума функции десятков тысяч переменных. Бесперспективность точного решения подобной задачи с помощью любого мыслимого суперкомпьютера вполне очевидна.

В настоящее время для решения проблемы фолдинга разработано большое число приближенных подходов [11]. Один из наиболее эффективных - использование информации о гомологии, т.е. о пространственной структуре белков, обладающих первичной структурой, близкой к исследуемому белку [12]. Известная пространственная структура белка, гомологичного исследуемому, берется в качестве начального приближения, а затем производится ее уточнение.

Исследование структур биологических макромолекул методами математического моделирования является в настоящее время интенсивно развивающейся областью молекулярной биологии. Новые подходы к решению возникающих здесь проблем разрабатываются в Институте прикладной математики РАН (ИПМ РАН), они включают моделирование не только структурообразования как отдельного явления, но и процесса рождения макромолекулы в целом. Это включает в себя и моделирование механизма возникновения и роста молекулярной цепи во взаимодействии с механизмом структурообразования. Такой комплексный подход дает два преимущества. Во-первых, он позволяет достичь более высокого качества предсказания структур. Во-вторых, такой подход позволяет изучать свойства и характеристики собственно процесса транскрипции методом математического моделирования. Суперкомпьютерные расчеты процессов образования структур РНК, проводимые в ИПМ РАН, в настоящее время являются одними из наиболее перспективных.

Моделирование структуры и динамики макромолекул

Для понимания механизмов функционирования белков необходимо знание их структур. Наиболее распространенным в этой области является моделирование молекулярной динамики (метод молекулярной динамики). Статистические методы (метод Монте-Карло) наиболее эффективны при компьютерном моделировании и изучении структур. В то время как расшифровка первичной структуры молекул ДНК человека близка к завершению, изучение ее пространственной структуры находится еще в самом начале. На Рис.7 показана структура молекулы ДНК, содержащей 15 витков двойной спирали (150 пар оснований). Для моделирования таких фрагментов ДНК требуется учет всевозможных конфигураций как отдельных нуклеотидов, входящих в состав ДНК, так и большого числа (~10⁵) молекул растворителя (включая противоионы), окружающего макромолекулу. Процедура расчета энергии межмолекулярных взаимодействий (и связанные с ней вычисления изучаемых характеристик) является основным потребителем вычислительных ресурсов и может быть разделена на независимые процессы, запускаемые параллельно. Это позволит существенно ускорить расчеты. Использование высокопроизводительных вычислений позволит изучить пространственную организацию больших фрагментов ДНК (сотни пар оснований), включая сверхспирализацию ДНК, механизмы связывания лекарств и других биологически активных соединений с ДНК, а также комплексообразование белок-ДНК.

Вычислительные эксперименты с молекулами требуют огромных вычислительных мощностей. Такие задачи на современных компьютерах считаются сутками и месяцами. Моделирование молекулярной динамики проводится на основе экспериментальных данных и данных компьютерного моделирования о строении биомакромолекул. В классическом методе молекулярной динамики молекулярная система моделируется взаимодействующими частицами, движение которых подчиняется уравнениям Ньютона. Содержательные физические задачи включают явное рассмотрение от нескольких тысяч до десятков тысяч атомов. Уравнения движения решаются численно с шагом численного интегрирования ~10^-15сек. На каждом шаге по координатам всех частиц находятся действующие на них силы и затем вычисляются новые координаты и скорости частиц. Полученные траектории движения частиц служат для нахождения различных усредненных характеристик молекулярной системы.

Наиболее трудоемкая операция на шаге - это вычисление сил. Она требует числа операций, квадратичного по отношению к числу частиц. Существуют различные подходы к распараллеливанию вычислительных процессов в таких задачах. Наиболее перспективным на сегодня показал себя подход, основанный на разбиении молекулярной системы на домены. Так, для расчета системы, состоящей из 65536 взаимодействующих эллипсоидных частиц, на суперкомпьютере Cray-T3D (256 процессоров) удалось достичь увеличения быстродействия почти в 220 раз.

Переход к параллельным вычислениям позволяет существенно продвинуть ведущиеся в ИМПБ РАН совместно с другими институтами исследования по изучению структурно-динамической организации основных молекулярных объектов биологии - биологических мембран, белков и нуклеиновых кислот (Рис.8).

Прикладные задачи компьютерной биологии

Одной из прикладных задач компьютерной биологии является применение вычислительных алгоритмов, используемых для анализа и систематизации генетической информации, выяснения структуры, динамики и функции макромолекул для создания новых лекарственных препаратов [13-16].

Область науки о компьютерном анализе генетических текстов, аминокислотных последовательностей, пространственной структуры и динамики белков, лежащем в основе определения макромолекул-мишеней, и поиск низкомолекулярных комплексов с целью создания новых лекарств превратилась в быстроразвивающееся направление биомедицины в конце 20-го века.

Весь процесс создания нового лекарственного соединения в ряде случаев может быть разделен на следующие этапы: (1) поиск мишени (например, белка) действия нового лекарства; (2) поиск низкомолекулярного соединения, обладающего нужным фармакологическим действием; (3) изучение этого соединения в эксперименте; (4) проведение испытаний в клинике. Лишь малый процент возможных кандидатов на лекарство проходит успешное клиническое испытание. Собственно компьютерными являются 1-й и 2-ой из перечисленных этапов.

Если пространственная структура белка-мишени известна, то применяют так называемые прямые методы компьютерного конструирования лекарств. Вначале устанавливают место связывания низкомолекулярного соединения (лекарства) и белка-мишени. Затем проводят анализ полученного комплекса с помощью молекулярной графики (так называемый докинг) с последующим молекулярно-динамическим и квантовохимическим расчетом. Все этапы этого расчета требуют высокопроизводительных вычислений. Уже самый первый этап поиска подходящего кандидата на лекарство связан с перебором сотен миллионов вариантов из соответствующей базы данных низкомолекулярных соединений. Последующие этапы расчета, как следует из вышесказанного, также требуют применения суперкомпьютеров.

В таблице 2 представлены методы и вычислительные затраты на полный расчет способности связывания низкомолекулярного соединения для различных размеров баз данных лекарств. Точность расчета, даваемого каждым из представленных методов, возрастает при движении от верхней части таблицы к ее нижней части. Из приведенного сравнения следует, что более точные методы могут оказаться неприемлемыми из-за чрезмерных затрат времени на вычисления. Оценка необходимых ресурсов при использовании квантовохимических методов для расчета энергии системы из 10⁴ тяжелых атомов приводит к величине ~10¹⁶ флоп. На 100-терафлопной машине такой расчет займет 5 минут.

Таблица 2. Оценки современных вычислительных потребностей для полного расчета энергии связывания всех низкомолекулярных соединений, входящих в различные базы данных. [17]

Уровень сложности моделирования	Метод	Размер базы	Время расчета
Молекулярная механика	SPECTTOPE	140000	~ 1 часа
Жесткие лиганд/мишень	LUDI	30000	1 - 4 часа
Молекулярная механика	Hammerhead	80000	3 - 4 дня
Частично деформируемый лиганд	DOCK	17000	3 - 4 дня
Жесткая мишень	DOCK	53000	14 дней
Молекулярная механика	ICM	50000	21 день
Молекулярная механика	AMBER CHARMM	1	несколько дней
Квантомеханичеcкий активный сайт	Gaussian, Q - Chem	1	несколько недель

В случае, когда пространственная структура белка-мишени неизвестна, имеется достаточно большое число различных подходов сравнительного моделирования [18]. При построении трехмерной модели белка с заданной аминокислотной последовательностью эта полипептидная цепочка сначала "вписывается" в координаты, соответствующие остаткам гомологичного белка с расшифрованной пространственной структурой, а затем осуществляется минимизация внутренней энергии, чтобы "убрать" возможные напряжения в структуре. В дальнейшем методами молекулярной динамики моделируется движение отдельных частей молекулы с целью уточнения расположения гибких участков [19]. Качество полученной модели оценивают с использованием программы, которая сравнивает пространственное расположение аминокислотных остатков моделируемого белка с известной статистикой, полученной для белков с расшифрованной экспериментально пространственной структурой.

Построенные таким способом модели были успешно использованы для конструирования, например: новых ингибиторов протеазы вируса иммунодефицита человека для лечения СПИДа; ингибиторов ренина, как средства для лечения эссенциальной гипертензии; для белковой инженерии гибридных нейтрофорных факторов и т.д. [19].

Неукротимый рост вычислительных мощностей сопровождается лавинообразным расширением биологических данных по геномам человека и других организмов. Дополнительная информация поступает из фармацевтической химии, неврологии, микробиологии, иммунологии, клинических испытаний, токсикологии, эпидемиологии и др. дисциплин и должна интегрироваться с генетическими и структурными данными. Создать единую картину всей информации, установить связи между отдельными областями знания - задача биоинформатики.

В основе будущих открытий в этих науках лежит использование огромных массивов баз данных по первичным последовательностям, структурам белков и низкомолекулярным соединениям. Их число в настоящее время составляет несколько сотен. С усовершенствованием техники секвенирования скорость расшифровки генома человека и других организмов в ближайшие несколько лет возрастет в сотни раз. Число различных баз данных в ближайшие годы будет экспоненциально нарастать. Работа с такими огромными массивами информации требует создания принципиально новых подходов к обработке данных и соответствующего программного обеспечения. По-видимому, наиболее эффективный путь решения этой проблемы - создание систем с параллельной обработкой информации, что хорошо вписывается в кластерную структуру современных суперкомпьютеров.

Важно подчеркнуть, что полноценное решение проблемы конструирования лекарств невозможно без создания общей базы знаний по физико-химической биологии. Такая база знаний должна включать не только сведения о структуре и функции отдельных белков, но и карты всех метаболических путей огромного количества реакций, протекающих в живом организме. В настоящее время в Пущинском научном центре предприняты первые попытки создания базы каталитических реакций белков и их математических моделей в клетках и клеточных ансамблях.

Подводя итог, можно сказать, что развитие высокопроизводительных вычислений в ближайшем будущем будет определять прогресс в молекулярной биологии. Именно на решение проблем молекулярной биологии ориентируются создатели будущих сверхпроизводительных вычислительных систем. В частности, на решение проблемы фолдинга и конструирования лекарств ориентированы создатели петафлопного суперкомпьютера (Blue Gene), который по проекту фирмы IBM должен вступить в строй в 2004 году. Эта область определена как приоритетная Национальным научным фондом и Национальной академией наук США, а также всеми развитыми и многими развивающимися странами.

Вплоть до самого последнего времени в России направление "Компьютерная биология" практически отсутствовало. Создание Межведомственного суперкомпьютерного центра (МСЦ), ориентированного в том числе и на решение задач молекулярной биологии во взаимодействии со специалистами в области компьютерной и математической биологии, и поддержка этого направления на правительственном уровне может качественно изменить сложившуюся ситуацию.

Работа выполнена при частичной поддержке РФФИ, проекты 99-07-90461, 98-04-48828, 98-07-90147.

Литература

Access, From supercomputers to the Grid, Vol. 11, N1, Fall/Winter, 1998,

National Computational Science Alliance University of Illinois at Urbana-Champaign 605 East Springfield Avenue Champaign, IL 61820; http://alliance.ncsa.uinc.edu

National Computational Science Alliance and National Center for Supercomputing Applications University of Illinois of Urbana - Champaign October 1, 1997; http://Alliance.ncsa.uiuc.edu

High performance Computing and Communications Information technology frontiers for a new Millenium. A Report by the Subcommittee on Computing, Information, and Communications R&D. Committee on technology. National Science and Technology Counciel. http://www.ccic.gov, http://www.ngi.gov

Alliance/NCSA v.12, N2, Summer 1999.

ACCESS. Innovations in Computational Science, Engineering, & Grid Technology. http://alliance.ncsa.uiuc.edu

С.В. Емельянов, О.И. Ларичев Вестник РАН, т. 69, N5, (1999), стр. 398-401

Bioengineering: Building the Future of Biology and Medicine. Bioengineering Symposium Report 6/4/98, February 27-28, 1998 (http://www.nih.gov/grants/becon/becon.htm)

Gaasterland T. (1998). Structural Genomics: Bioinformatics In The Driver`s Seat. Nature Biotechnology 16, 625-627

Human Genome News, January 1998; 9 (1-2); updated 3/99 http://www.ornl.ov/hgmis/faq/compgen.html/completegenome

Sanchez R., Sali A. (1998), Proceedings of The National Academy of Sciences USA 95, 13597-13602

Институт математических проблем биологии РАН (проспект), Пущино, 1997, http://home.impb.ru

Fischer D., Rice D., Bowie J.U., Eisenberg D. (1996) Assigning Amino Acid Sequences To 3-Dimensional Protein Folds, Faseb Journal, 10, 126-136

А.В.Финкельштейн, Д.С.Рыкунов, М.Ю.Лобанов, Ф.Я.Бадретдинов, Б.А.Рева, Дж.Скольник, Биофизика, т.44, 6.6, (1999) 980-992

Martin Y.C. Overview of Current State of Rational Drug Design. "Rational Drug Design. Advances in Technology & Therapeutic Applications", IBC USA Conference, 1993, San Diego

Modern Drug Discovery, 1998, November/December, 41-48

Spaltman F et.al. Drug Discovery Today, 1999, 4, 17

А.И.Арчаков, В.В.Поройков Новые технологии в биомедицине. Биоинформатика. НИИ биомедицинской химии РАН, 1999

Advanced Computational Structural Genomics infection, http://cbcg.lbl.gov/ssi-csb/Meso.html

Johnson M.S., Srinivasan N., Sowdhamini R., et.al. Crit.Rov. Biochem.Mol.Biol., 1994, 29, 1

Srinivasan N. et.al., In: Protein Structure Prediction, Oxford Univ. Press., 1996, 111.

жүктеу/скачать 218.28 Kb.

Достарыңызбен бөлісу: