Биоинформатика и высокопроизводительные вычисления



Дата11.07.2016
өлшемі218.28 Kb.
#192414
БИОИНФОРМАТИКА И ВЫСОКОПРОИЗВОДИТЕЛЬНЫЕ ВЫЧИСЛЕНИЯ
Введение

Главной целью обзора является введение в круг проблем, решаемых современной компьютерной биологией. В биологических исследованиях компьютеры и суперкомпьютеры становятся все более самостоятельным инструментом познания и получения прикладных результатов. Это обстоятельство не вполне осознается не только учеными, работающими в смежных областях, но и самими биологами. Причинами этого является как исключительно быстрое развитие самой вычислительной техники, в частности, появление суперкомпьютеров с параллельной архитектурой [1-5], так и рост ее применения в биологии. Несмотря на широкий фронт использования компьютеров в биологии [6, 7] в нем можно выделить главные направления, определяющие развитие таких областей знания, как молекулярная биология и биохимия.

Особое внимание в обзоре уделяется работам по компьютерной биологии, ведущимся в России, так как успех или отставание в этой области во многом определяют будущее развитие биологии в нашей стране.

Задачи компьютерной биологии

В чем же причина необходимости использования суперкомпьютеров в биологии? Прежде всего отметим, что в начале 90-х годов начала выполняться научная программа расшифровки генома человека, в которую были вложены огромные средства. В настоящее время эта программа находится в стадии своего завершения. Напомним, что под расшифровкой генома человека понимается определение последовательности нуклеотидных пар в молекуле ДНК.



Молекула ДНК представляет собой биополимер, элементарным звеном которого является нуклеотидная пара. Число таких звеньев в ДНК человека около 3·109. В настоящее время скорость расшифровки составляет примерно 108 нуклеотидных пар в год и через полтора-два года структура ДНК будет полностью расшифрована (Рис.1).

Уже сейчас объявлено, что следующий этап, рассчитанный на 10-15 лет, стартует в начале 21 века. Он получил название "структурный геном". Речь идет о расшифровке первичной и пространственной структуры всех белков, входящих в состав человеческого организма. Выполнение этой программы в принципе невозможно без использования высокопроизводительных вычислительных систем. В настоящее время расшифрована структура около десятка тысяч белков, в то время как число различных белков в организме человека составляет сотни тысяч. Знание первичной и пространственной структур белков играет решающую роль для понимания их функционирования. В частности, знание пространственной структуры лежит в основе современной технологии создания лекарств (так называемый "drug design").



К числу основных вычислительных задач компьютерной биологии в настоящее время относятся:

Распознавание белок-кодирующих участков в первичной структуре биополимеров. Сравнительный анализ первичных структур биополимеров.

Расшифровка пространственной структуры биополимеров и их комплексов. (Рентгеноструктурный анализ, методы ЯМР).

Пространственное сворачивание белков (3D-фолдинг).

Моделирование структуры и динамики биомакромолекул.

Создание и сопровождение специализированных баз данных (баз белковых структур, нуклеотидных последовательностей, путей метаболизма, клеточных ансамблей и др.).



На Рис.2 показано соответствие между молекулярной и компьютерной биологией.

Остановимся подробнее на перечисленных задачах.



Первичные структуры. Проблемы, связанные с анализом первичной структуры, в первую очередь касаются вопросов распознавания белок-кодирующих областей (генов) уже отсеквенированных последовательностей нуклеотидов в молекуле ДНК.

a t g g t g c a t t t t a c t g c t g a g g a g a a g g c t g c c g t c a c t a g c c t g t g g a g c a a g a t g a a t g t g g a a g a g g c t g g a g g t g a a g c c t t g g g c a g g t a a g c a t t g g t t c t c a a t g c a t g g g a a t g a a g g g t g a a t a t t a c c c t a g c a a g t t g a t t g g g a a a g t c c t c a a g a t t t t t t g c a t c t c t a a t t t t g t a t c t g a t a t g g t g t c at t t c a t a g a c t c c t c g t t g t t t a c c c c t g g a c c c a g a g a t t t t t t g a c a g c t t t g g a a a c c t g t c g t c t c c c t c t g c c a t c c t g g g c a a c c c c a a g g t c a a g g c c c a t g g c a a g a a g g t g c t g a c t t c c t t t g g a g a t g c t a t t a a a a a c a t g g a c a a c c t c a a g c c c g c c t t t g c t a a g c t g a g t g a g c t g c a c t g t g a c a a g c t g c a t g t g g a t c c t g a g a a c t t c a a g g t g a g t t c a g g t g c t g g t g a t g t g a t t t t t t g g c t t t a t a t t t t g a c a t t a a t t g a a g c t c a t a a t c t t a t t g g a a a g a c c a a c a a a g a t c t c a g a a a t c a t g g g t c g a g c t t g a t g t t a g a a c a g c a g a c t t c t a g t g a g c a t a a c c a a a a c t t a c a t g a t t c a g a a c t a g t g a c a g t a a a g g a c t a c t a a c g c c t g a a t t g g c t t a a c t t t t c a g g a a a t c t t g c c a g a a c t t g a t g t g t t t a t c c c a g a a a t t g t a t t a t a g a a t t g t a g a c t t g t g a a a g a a g a a t g a a a t t t g g c t t t t g g t a g a t g a a a g t c c a t t t c a a g g a a a t a g a a a t g c c t t a t t t t a t g t g g g t c a t g a t a a t t g a g g t t t a g a a g a g a t t t t t g c a a a a a a a a t a a a a g a t t t g c t c a a a g a a a a a t a a g a c a c a t t t t c t a a a a t a t g t t a a a t t t c c c a t c a g t a t t g t g a c c a a g t g a a g g c t t g t t t c c g a a t t t g t t g g g g a t t t t a a a c t c c c g c t g a g a a c t c t t g c a g c a c t c a c a t t c t a c a t t t a c a a a a a t t a g a c a a t t g c t t a a a g a a a a a c a g g g a g a g a g g g a a c c c a a t a a t a c t g g t a a a a t g g g g a a g g g g g t g a g g g t g t a g g t a g g t a g a a t g t t g a a t g t a g g g c t c a t a g a a t a a a a t t g a a c c t a a g c t c a t c t g a a t t t t t t g g g t g g g c a c a a a c c t t g g a a c a g t t t g a g g t c a g g g t t g t c t a g g a a t g t a g g t a t a a a g c c g t t t t t g t t t g t t t g t t t g t t t t t t c a t c a a g t t g t t t t c g g a a a c t t c t a c t c a a c a t g c c t g t g t g t t a t t t t g t c t t t t g c c t a a c a g c t c c t g g g t a a c g t g a t g g t g a t t a t t c t g g c t a c t c a c t t t g g c a a g g a g t t c a c c c c t g a a g t g c a g g c t g c c t g g c a g a a g c t g g t g t c t g c t g t c g c c a t t g c c c t g g c c c a t a a g t a c c a c t g a

Рис. 3. Распознавание белок-кодирующих областей в геномах. Человеческий γ-гемоглобин.



На Рис.3 показана нуклеотидная последовательность человеческого γ-гемоглобина. Основная задача состоит в выделении в этой последовательности осмысленных участков - генов. На Рис.3 такой участок (экзон) выделен жирным шрифтом. Обычным шрифтом показана некодирующая область (интрон). Основная трудность в выделении генов состоит в определении экзон-интронной структуры эукариот (организмов, клетки которых имеют ядро), поскольку кодирующие и некодирующие участки не выделены однозначно. Постгеномная эпоха ставит проблему расшифровки геномов огромного числа микроорганизмов. К настоящему моменту полностью расшифрованы геномы нескольких десятков микроорганизмов [8] (Табл.1). Однако из 100000 генов, которыми обладает человек, в настоящее время расшифровано около 10%.

Табл.1. Примеры полностью расшифрованных геномов различных организмов
(приведены только геномы длиной свыше 1.5 МБ)

 

Organism

Размер генома в кБ

Число генов

Архебактерии

Methanococcus jannaschii

1664

1750

Methanobacterium thermoautotrophicum

1751

1918

Archaeoglobus fulgidus

2178

2493

Pyrococcus horikoshii(shinkaj)

1738

1979

Aeropyrum pernix

1669

2620

Pyrococcus abyssi

1765

1765

Бактерии

Haemophilus influenzae

1830

1850

Synechocystis sp.

3573

3168

Escherichia coli

4639

4289

Helicobacter pylori

1667

1590

Bacillus subtilis

4214

4099

Aquifex aeolicus

1551

1544

Mycobacterium tuberculosis

4411

4402

Helicobacter pylori

1643

1495

Thermotoga maritima

1860

1877

Deinococcus radiodurans

3284

3187

Campylobacter jejuni

1641

2106

Neisseria meningitidis

2272

2158

Эукариоты

Saccharomyces cerevisiae

12069

6294

Caenorhabditis elegans

97000

1909

Drosophila melanogaster

137000

1410

С математической точки зрения поставленная проблема относится к задаче распознавания. В Институте математических проблем биологии РАН (ИМПБ РАН) совместно с Институтом белка РАН, НИИ "Генетика" и Университетом Южной Калифорнии (США) был разработан комплекс программ распознавания белок-кодирующих областей у эукариот, включающих программы GREAT и CASSANDRA, ориентированные на решение основных проблем, возникающих при анализе новосеквенированных последовательностей [10]. Имеется задел для работ по распознаванию, проверке качества распознавания и отсева из имеющихся баз данных ошибочно определенных начал генов прокариот. Это открывает возможности создания в России собственных банков данных более высокого качества, чем ныне существующие за рубежом и интегрирования в мировой процесс создания баз знаний по биологии.

В настоящее время наиболее эффективным методом определения биологической функции гена является поиск одинаковых последовательностей в базах данных нуклеотидных последовательностей ДНК. Распараллеливание вычислений и использование суперкомпьютеров для решения подобного рода задач позволит не только в сотни раз повысить скорость расшифровки первичных структур, но и сделать открытия, вытекающие из анализа гомологичных последовательностей, обычным делом.

Другой важной проблемой, тесно связанной с программой структурного генома, является проблема сравнения аминокислотных последовательностей ("выравнивание"). Речь идет об идентификации похожих участков аминокислотных последовательностей первичной структуры белков. В этом случае также приходится работать с большими массивами данных. По сравнению со случаем расшифровки генома, сложность решаемой комбинаторной задачи [9] состоит в том, что вместо четырехбуквенного нуклеотидного алфавита приходится иметь дело с двадцатибуквенным аминокислотным алфавитом. На Рис.4 показано выравнивание аминокислотных последовательностей инсулина из различных организмов


Рис. 4. Выравнивание аминокислотных последовательностей инсулинов из различных организмов.

Сравнение последовательностей исключительно важно для выяснения степени гомологии белков, т.е. информации, первостепенной для решения проблемы их пространственного сворачивания (фолдинга). Решение проблемы фолдинга, т.е. предсказание пространственной структуры белка по его аминокислотной последовательности, является одним из перспективных подходов к решению задач программы структурного генома. В свою очередь, знание пространственной структуры белков чрезвычайно тесно связано с их функционированием. В частности, без такого знания невозможно создание на основе современной компьютерной технологии новых типов лекарств.

Все эти задачи предъявляют высокие требования к быстродействию и объему памяти используемых вычислительных средств, еще более возрастающие в связи с завершением расшифровки геномов ряда организмов, каждый из которых содержит сотни миллионов нуклеотидов (Табл.1). Время и объем памяти, используемые различными алгоритмами исследования первичных структур биополимеров, как правило, растут как квадрат или куб длины исследуемой первичной структуры, а в ряде случаев, например, в задаче множественного сравнения, рост сложности вычислений с длиной последовательности еще более быстрый. Переход к более точным методам и анализу больших объемов данных требует доступа к вычислительным ресурсам, которые могут быть обеспечены только суперкомпьютерами. Так, например, для последовательности, содержащей 105 пар оснований и 104 структур (каждая длиной 103 аминокислотных остатков) при квадратичной зависимости скорости вычислений от длины первичной структуры необходимо выполнить 1015 операций. Для решения таких задач требуются суперкомпьютеры производительностью в сотни терафлоп.

Рентгеноструктурный анализ белков

В настоящее время рентгеноструктурный анализ (РСА) является основным методом определения пространственной структуры биологических макромолекул (белков, вирусов, нуклеиновых кислот) и их комплексов при атомном разрешении. Процедура расшифровки структуры этим методом является сложным и дорогостоящим процессом, включающим в себя:
а) выделение и очистку белка;
б) кристаллизацию очищенного белка;
в) рентгеноструктурный эксперимент;
г) компьютерную расшифровку структуры

Рис. 5. Молекула белка состоит из длинной полипептидной цепи, сложным образом закрученной в пространстве.



Компьютерная часть является необходимой составляющей процесса расшифровки структуры, поскольку данные, полученные в рентгеновском эксперименте, содержат только часть информации, необходимой для реконструкции распределения плотности в молекуле белка (Рис.5). Эксперимент позволяет определить лишь интенсивности лучей, рассеянных под различными углами по отношению к исследуемому образцу. Как правило, это десятки и сотни тысяч измерений. Однако для восстановления структуры необходимо знать также и значения сдвигов фаз рассеянных лучей. Эти сдвиги фаз не могут быть зарегистрированы экспериментально. Существующие в настоящее время в макромолекулярной кристаллографии подходы к решению этой проблемы основаны либо на получении химическим путем изоморфных модификаций исследуемого белка и проведения с ними дополнительных рентгеновских экспериментов, либо на наличии в белке аномально рассеивающих атомов, либо на известной структуре белка, гомологичного исследуемому. Такая дополнительная информация позволяет получить приближенные значения фаз рассеянных лучей и затем приближенные значения координат атомов в исследуемом объекте. Полученные координаты подвергаются уточнению, которое представляет собой сложную вычислительную задачу и сводится к поиску локального минимума в пространстве 104-106 переменных. Понятно, что такая задача предъявляет серьезнейшие требования к мощности используемых компьютеров. Применение указанных выше подходов сталкивается с особенно большими сложностями при работе с большими макромолекулярными комплексами, представляющими особый интерес для биологии и медицины.

Работы по расшифровке структуры белков на основе рентгеновских данных в ИМПБ РАН ведутся более 20 лет. Разработанные в ИМПБ РАН методы и программы были применены при расшифровке структур г-кристаллина (белок, входящий в состав хрусталика глаза) (совместно с Институтом белка РАН), актиноксантина (совместно с Институтом биоорганической химии РАН), лектина (совместно с Институтом молекулярной генетики РАН), эндонуклеазы (совместно с Институтом кристаллографии РАН) и др.

В последние десять лет значительный интерес в мировой кристаллографии проявляется к попытке снять ограничения, налагаемые существующими подходами к решению фазовой проблемы, и уменьшить объем экспериментальной работы за счет использования более сложного математического аппарата и высокопроизводительных компьютеров. Однако применимость таких методов все еще ограничена структурами, содержащими не более, чем несколько сотен атомов. Задача определения ультраструктур становится более посильной, если ставить вопрос не о детальном виде с определением координат каждого атома, а об общем виде структуры комплекса. С точки зрения рентгеноструктурного анализа, речь идет о решении фазовой проблемы для данных рассеяния в ограниченном диапазоне углов рассеяния. Структуры, определенные при "низком" разрешении, могут в дальнейшем использоваться как стартовые при их последующей детальной расшифровке и могут представлять, кроме того, самостоятельный интерес для медицины. В ИМПБ РАН разрабатывается новый подход к определению структуры таких комплексов, основанный на рассмотрении большого набора ансамблей фаз и последующей фильтрации (Рис.6) получаемых наборов структур с применением дополнительных математических критериев. Такой подход требует, с одной стороны, значительных компьютерных мощностей, но допускает, с другой стороны, эффективное распараллеливание вычислений. Основанные на таких принципах компьютерные программы, созданные в ИМПБ РАН, успешно использовались при расшифровке структуры частицы липопротеина, проводимой в сотрудничестве с немецкими и французскими лабораториями.

Рис. 6. Фильтры основаны на математических свойствах распределений электронной плотности в белках (топологические свойства, статистическое правдоподобие и т.д.)



Для выяснения механизмов биологического действия белков и их целенаправленной модификации необходимо определение их пространственного строения и динамических конформационных характеристик в условиях максимального приближения к физиологической среде. Наиболее эффективным методом решения этих задач является спектроскопия ядерного магнитного резонанса (ЯМР). В отличие от рентгеноструктурного анализа в случае ЯМР спектроскопии отсутствуют этапы а) и б). В Институте биоорганической химии РАН (ИБХ РАН) расшифрованы структуры десятков белков, разрабатываются компьютерные методы анализа с использованием параллельных вычислений, позволяющие значительно ускорить этот процесс.

Фолдинг белков

Предсказание пространственной структуры белков по аминокислотной последовательности, т.е. фактически по последовательности нуклеотидных пар в ДНК, является одной из центральных задач компьютерной биологии. Важность решения этой задачи состоит еще и в том, что число известных первичных белковых структур, установленных по известным нуклеотидным последовательностям ДНК, намного превосходит число известных пространственных белковых структур.

Формально, зная взаимодействие между отдельными атомами в полипептидной цепи с известной первичной структурой и окружающими такую цепь молекулами растворителя, путем минимизации свободной энергии всей системы можно было бы найти искомую структуру. Даже для небольшого белка это задача поиска глобального минимума функции десятков тысяч переменных. Бесперспективность точного решения подобной задачи с помощью любого мыслимого суперкомпьютера вполне очевидна.

В настоящее время для решения проблемы фолдинга разработано большое число приближенных подходов [11]. Один из наиболее эффективных - использование информации о гомологии, т.е. о пространственной структуре белков, обладающих первичной структурой, близкой к исследуемому белку [12]. Известная пространственная структура белка, гомологичного исследуемому, берется в качестве начального приближения, а затем производится ее уточнение.

Исследование структур биологических макромолекул методами математического моделирования является в настоящее время интенсивно развивающейся областью молекулярной биологии. Новые подходы к решению возникающих здесь проблем разрабатываются в Институте прикладной математики РАН (ИПМ РАН), они включают моделирование не только структурообразования как отдельного явления, но и процесса рождения макромолекулы в целом. Это включает в себя и моделирование механизма возникновения и роста молекулярной цепи во взаимодействии с механизмом структурообразования. Такой комплексный подход дает два преимущества. Во-первых, он позволяет достичь более высокого качества предсказания структур. Во-вторых, такой подход позволяет изучать свойства и характеристики собственно процесса транскрипции методом математического моделирования. Суперкомпьютерные расчеты процессов образования структур РНК, проводимые в ИПМ РАН, в настоящее время являются одними из наиболее перспективных.

Моделирование структуры и динамики макромолекул

Для понимания механизмов функционирования белков необходимо знание их структур. Наиболее распространенным в этой области является моделирование молекулярной динамики (метод молекулярной динамики). Статистические методы (метод Монте-Карло) наиболее эффективны при компьютерном моделировании и изучении структур. В то время как расшифровка первичной структуры молекул ДНК человека близка к завершению, изучение ее пространственной структуры находится еще в самом начале. На Рис.7 показана структура молекулы ДНК, содержащей 15 витков двойной спирали (150 пар оснований). Для моделирования таких фрагментов ДНК требуется учет всевозможных конфигураций как отдельных нуклеотидов, входящих в состав ДНК, так и большого числа (~105) молекул растворителя (включая противоионы), окружающего макромолекулу. Процедура расчета энергии межмолекулярных взаимодействий (и связанные с ней вычисления изучаемых характеристик) является основным потребителем вычислительных ресурсов и может быть разделена на независимые процессы, запускаемые параллельно. Это позволит существенно ускорить расчеты. Использование высокопроизводительных вычислений позволит изучить пространственную организацию больших фрагментов ДНК (сотни пар оснований), включая сверхспирализацию ДНК, механизмы связывания лекарств и других биологически активных соединений с ДНК, а также комплексообразование белок-ДНК.



Вычислительные эксперименты с молекулами требуют огромных вычислительных мощностей. Такие задачи на современных компьютерах считаются сутками и месяцами. Моделирование молекулярной динамики проводится на основе экспериментальных данных и данных компьютерного моделирования о строении биомакромолекул. В классическом методе молекулярной динамики молекулярная система моделируется взаимодействующими частицами, движение которых подчиняется уравнениям Ньютона. Содержательные физические задачи включают явное рассмотрение от нескольких тысяч до десятков тысяч атомов. Уравнения движения решаются численно с шагом численного интегрирования ~10-15 сек. На каждом шаге по координатам всех частиц находятся действующие на них силы и затем вычисляются новые координаты и скорости частиц. Полученные траектории движения частиц служат для нахождения различных усредненных характеристик молекулярной системы.

Наиболее трудоемкая операция на шаге - это вычисление сил. Она требует числа операций, квадратичного по отношению к числу частиц. Существуют различные подходы к распараллеливанию вычислительных процессов в таких задачах. Наиболее перспективным на сегодня показал себя подход, основанный на разбиении молекулярной системы на домены. Так, для расчета системы, состоящей из 65536 взаимодействующих эллипсоидных частиц, на суперкомпьютере Cray-T3D (256 процессоров) удалось достичь увеличения быстродействия почти в 220 раз.

Переход к параллельным вычислениям позволяет существенно продвинуть ведущиеся в ИМПБ РАН совместно с другими институтами исследования по изучению структурно-динамической организации основных молекулярных объектов биологии - биологических мембран, белков и нуклеиновых кислот (Рис.8).



Прикладные задачи компьютерной биологии

Одной из прикладных задач компьютерной биологии является применение вычислительных алгоритмов, используемых для анализа и систематизации генетической информации, выяснения структуры, динамики и функции макромолекул для создания новых лекарственных препаратов [13-16].

Область науки о компьютерном анализе генетических текстов, аминокислотных последовательностей, пространственной структуры и динамики белков, лежащем в основе определения макромолекул-мишеней, и поиск низкомолекулярных комплексов с целью создания новых лекарств превратилась в быстроразвивающееся направление биомедицины в конце 20-го века.

Весь процесс создания нового лекарственного соединения в ряде случаев может быть разделен на следующие этапы: (1) поиск мишени (например, белка) действия нового лекарства; (2) поиск низкомолекулярного соединения, обладающего нужным фармакологическим действием; (3) изучение этого соединения в эксперименте; (4) проведение испытаний в клинике. Лишь малый процент возможных кандидатов на лекарство проходит успешное клиническое испытание. Собственно компьютерными являются 1-й и 2-ой из перечисленных этапов.

Если пространственная структура белка-мишени известна, то применяют так называемые прямые методы компьютерного конструирования лекарств. Вначале устанавливают место связывания низкомолекулярного соединения (лекарства) и белка-мишени. Затем проводят анализ полученного комплекса с помощью молекулярной графики (так называемый докинг) с последующим молекулярно-динамическим и квантовохимическим расчетом. Все этапы этого расчета требуют высокопроизводительных вычислений. Уже самый первый этап поиска подходящего кандидата на лекарство связан с перебором сотен миллионов вариантов из соответствующей базы данных низкомолекулярных соединений. Последующие этапы расчета, как следует из вышесказанного, также требуют применения суперкомпьютеров.

В таблице 2 представлены методы и вычислительные затраты на полный расчет способности связывания низкомолекулярного соединения для различных размеров баз данных лекарств. Точность расчета, даваемого каждым из представленных методов, возрастает при движении от верхней части таблицы к ее нижней части. Из приведенного сравнения следует, что более точные методы могут оказаться неприемлемыми из-за чрезмерных затрат времени на вычисления. Оценка необходимых ресурсов при использовании квантовохимических методов для расчета энергии системы из 104 тяжелых атомов приводит к величине ~1016 флоп. На 100-терафлопной машине такой расчет займет 5 минут.

Таблица 2. Оценки современных вычислительных потребностей для полного расчета энергии связывания всех низкомолекулярных соединений, входящих в различные базы данных. [17]

Уровень сложности моделирования

Метод

Размер базы

Время расчета

Молекулярная механика

SPECTTOPE

140000

~ 1 часа

Жесткие лиганд/мишень

LUDI

30000

1 - 4 часа

Молекулярная механика

Hammerhead

80000

3 - 4 дня

Частично деформируемый лиганд

DOCK

17000

3 - 4 дня

Жесткая мишень

DOCK

53000

14 дней

Молекулярная механика

ICM

50000

21 день

Молекулярная механика

AMBER
CHARMM

1

несколько дней

Квантомеханичеcкий активный сайт

Gaussian,
Q - Chem

1

несколько недель

В случае, когда пространственная структура белка-мишени неизвестна, имеется достаточно большое число различных подходов сравнительного моделирования [18]. При построении трехмерной модели белка с заданной аминокислотной последовательностью эта полипептидная цепочка сначала "вписывается" в координаты, соответствующие остаткам гомологичного белка с расшифрованной пространственной структурой, а затем осуществляется минимизация внутренней энергии, чтобы "убрать" возможные напряжения в структуре. В дальнейшем методами молекулярной динамики моделируется движение отдельных частей молекулы с целью уточнения расположения гибких участков [19]. Качество полученной модели оценивают с использованием программы, которая сравнивает пространственное расположение аминокислотных остатков моделируемого белка с известной статистикой, полученной для белков с расшифрованной экспериментально пространственной структурой.

Построенные таким способом модели были успешно использованы для конструирования, например: новых ингибиторов протеазы вируса иммунодефицита человека для лечения СПИДа; ингибиторов ренина, как средства для лечения эссенциальной гипертензии; для белковой инженерии гибридных нейтрофорных факторов и т.д. [19].

Неукротимый рост вычислительных мощностей сопровождается лавинообразным расширением биологических данных по геномам человека и других организмов. Дополнительная информация поступает из фармацевтической химии, неврологии, микробиологии, иммунологии, клинических испытаний, токсикологии, эпидемиологии и др. дисциплин и должна интегрироваться с генетическими и структурными данными. Создать единую картину всей информации, установить связи между отдельными областями знания - задача биоинформатики.

В основе будущих открытий в этих науках лежит использование огромных массивов баз данных по первичным последовательностям, структурам белков и низкомолекулярным соединениям. Их число в настоящее время составляет несколько сотен. С усовершенствованием техники секвенирования скорость расшифровки генома человека и других организмов в ближайшие несколько лет возрастет в сотни раз. Число различных баз данных в ближайшие годы будет экспоненциально нарастать. Работа с такими огромными массивами информации требует создания принципиально новых подходов к обработке данных и соответствующего программного обеспечения. По-видимому, наиболее эффективный путь решения этой проблемы - создание систем с параллельной обработкой информации, что хорошо вписывается в кластерную структуру современных суперкомпьютеров.

Важно подчеркнуть, что полноценное решение проблемы конструирования лекарств невозможно без создания общей базы знаний по физико-химической биологии. Такая база знаний должна включать не только сведения о структуре и функции отдельных белков, но и карты всех метаболических путей огромного количества реакций, протекающих в живом организме. В настоящее время в Пущинском научном центре предприняты первые попытки создания базы каталитических реакций белков и их математических моделей в клетках и клеточных ансамблях.

Подводя итог, можно сказать, что развитие высокопроизводительных вычислений в ближайшем будущем будет определять прогресс в молекулярной биологии. Именно на решение проблем молекулярной биологии ориентируются создатели будущих сверхпроизводительных вычислительных систем. В частности, на решение проблемы фолдинга и конструирования лекарств ориентированы создатели петафлопного суперкомпьютера (Blue Gene), который по проекту фирмы IBM должен вступить в строй в 2004 году. Эта область определена как приоритетная Национальным научным фондом и Национальной академией наук США, а также всеми развитыми и многими развивающимися странами.

Вплоть до самого последнего времени в России направление "Компьютерная биология" практически отсутствовало. Создание Межведомственного суперкомпьютерного центра (МСЦ), ориентированного в том числе и на решение задач молекулярной биологии во взаимодействии со специалистами в области компьютерной и математической биологии, и поддержка этого направления на правительственном уровне может качественно изменить сложившуюся ситуацию.

Работа выполнена при частичной поддержке РФФИ, проекты 99-07-90461, 98-04-48828, 98-07-90147.

Литература

Access, From supercomputers to the Grid, Vol. 11, N1, Fall/Winter, 1998,


National Computational Science Alliance University of Illinois at Urbana-Champaign 605 East Springfield Avenue Champaign, IL 61820; http://alliance.ncsa.uinc.edu

National Computational Science Alliance and National Center for Supercomputing Applications University of Illinois of Urbana - Champaign October 1, 1997; http://Alliance.ncsa.uiuc.edu

High performance Computing and Communications Information technology frontiers for a new Millenium. A Report by the Subcommittee on Computing, Information, and Communications R&D. Committee on technology. National Science and Technology Counciel. http://www.ccic.gov, http://www.ngi.gov

Alliance/NCSA v.12, N2, Summer 1999.


ACCESS. Innovations in Computational Science, Engineering, & Grid Technology. http://alliance.ncsa.uiuc.edu

С.В. Емельянов, О.И. Ларичев Вестник РАН, т. 69, N5, (1999), стр. 398-401

Bioengineering: Building the Future of Biology and Medicine. Bioengineering Symposium Report 6/4/98, February 27-28, 1998 (http://www.nih.gov/grants/becon/becon.htm)

Gaasterland T. (1998). Structural Genomics: Bioinformatics In The Driver`s Seat. Nature Biotechnology 16, 625-627

Human Genome News, January 1998; 9 (1-2); updated 3/99 http://www.ornl.ov/hgmis/faq/compgen.html/completegenome

Sanchez R., Sali A. (1998), Proceedings of The National Academy of Sciences USA 95, 13597-13602

Институт математических проблем биологии РАН (проспект), Пущино, 1997, http://home.impb.ru

Fischer D., Rice D., Bowie J.U., Eisenberg D. (1996) Assigning Amino Acid Sequences To 3-Dimensional Protein Folds, Faseb Journal, 10, 126-136

А.В.Финкельштейн, Д.С.Рыкунов, М.Ю.Лобанов, Ф.Я.Бадретдинов, Б.А.Рева, Дж.Скольник, Биофизика, т.44, 6.6, (1999) 980-992

Martin Y.C. Overview of Current State of Rational Drug Design. "Rational Drug Design. Advances in Technology & Therapeutic Applications", IBC USA Conference, 1993, San Diego

Modern Drug Discovery, 1998, November/December, 41-48

Spaltman F et.al. Drug Discovery Today, 1999, 4, 17

А.И.Арчаков, В.В.Поройков Новые технологии в биомедицине. Биоинформатика. НИИ биомедицинской химии РАН, 1999

Advanced Computational Structural Genomics infection, http://cbcg.lbl.gov/ssi-csb/Meso.html



Johnson M.S., Srinivasan N., Sowdhamini R., et.al. Crit.Rov. Biochem.Mol.Biol., 1994, 29, 1

Srinivasan N. et.al., In: Protein Structure Prediction, Oxford Univ. Press., 1996, 111.

Достарыңызбен бөлісу:




©dereksiz.org 2024
әкімшілігінің қараңыз

    Басты бет