3. МЕТОДЫ, ИСПОЛЬЗУЮЩИЕСЯ БИОИНФОРМАТИКОЙ ДЛЯ АНАЛИЗА МАКРОМОЛЕКУЛ И СОЗДАНИЯ ЛЕКАРСТВ
3.1. Анализ геномов – что можно извлечь из генетических текстов
К настоящему времени полностью расшифрованы геномы около 30 биологических видов. В ближайшие годы ожидается завершение работ по анализу геномов еще несколько десятков видов, среди них – геномы ряда патогенных микроорганизмов; микроорганизмов, находящих применение в биотехнологии; геномов млекопитающих, в том числе – человека.
Информация о геномах указанных видов предоставлена для свободного доступа на Web-серверах ряда организаций, которые занимаются собственно расшифровкой геномов (например, The Sanger Centre, Wellcome Trust, Великобритания; The Institute of Genomic Research, США), хранением и систематизацией медико-биологической и биотехнологической информации (например, National Center for Biotechnology Information, США), ее компьютерным анализом, а также активно использующих такую информацию в прикладных и фундаментальных исследованиях (например, Institut Pasteur, Франция).
Базы данных (БД) геномов содержат нуклеотидные последовательности и "транслированные" по ним аминокислотные последовательности белков. В большинстве БД также содержатся дополнительные данные, как экспериментальные (например, значимость гена для выживаемости организма), так и полученные расчетным путем (например, функция белка, кодируемого геном, может быть постулирована на основе сходства его аминокислотной последовательности с первичной структурой уже охарактеризованного белка).
Web-серверы, предоставляющие пользователю генетическую информацию, оснащены комплексом программных средств для поиска в БД и анализа нуклеотидных и аминокислотных последовательностей. В качестве запросов при поиске последовательностей в БД могут использоваться номенклатурные названия генов, организмов, ключевые слова и др.
Ядро любой генетической информационной системы составляет программа поиска в БД гомологов последовательности, заданной пользователем. Обычно используются программы BLAST или FastA. Кроме того, на Web-серверах представлены программные средства, позволяющие рассчитать некоторые физико-химические свойства белка (например, изоэлектрическую точку), предсказывать вторичную структуру, наличие и локализацию трансмембранных участков и т.д. Такие данные часто используются при выполнении широкого круга исследований.
Перечисленные программные средства позволяют ориентировочно установить некоторые характеристики отдельного выбранного белка. Вместе с тем, возможности выполнения операций с группами последовательностей как правило, ограничены, что не позволяет осуществлять сравнительный анализ целых геномов или больших групп последовательностей. Это ограничение значительно затрудняет решение с использованием этих программных средств задач по прогнозированию структурно-функциональных взаимосвязей для групп белков и поиску потенциальных молекулярных мишеней лекарственных препаратов на основе сравнительного анализа генетической информации.
После определения последовательности генома необходимо выделить в его составе отдельные гены. Задача включает в себя определение локализации отдельных генов в нуклеотидной последовательности и идентификацию их границ и решается с применением методов биоинформатики. Эти методы позволяют определить с высокой степенью вероятности, является ли ген интроном или экзоном, а также является ли ген структурным или регуляторным. Используемые для этого подходы основаны на сравнении изучаемого генома с геномами, охарактеризованными ранее. Для локализации генов наилучшие результаты дает комбинация методов определения открытых рамок считывания и различий в частоте использования кодонов. Наиболее часто используемые компьютерные программы – GeneMark (Borodovsky, 1993), GenomeBrowser (Robinson, 1995), BLAST (Altschul, 1990), BLAZE или MPsrch (MPsrch).
Когда "разметка" генома выполнена, осуществляется функциональная классификация отдельных генов. Задача решается путем поиска последовательностей, гомологичных рассматриваемому гену, в базах данных ранее охарактеризованных генов и белков (Ouzounis, 1996). Таким образом, функция нового гена прогнозируется, исходя из функции гомологов. Далее, путем выравнивания исследуемой последовательности с ее гомологами можно выявить в ней мотивы, ответственные за функцию белка, например - формирующие активный центр фермента. Сопоставлением групп последовательностей можно обнаружить, какие белки образуют функциональные комплексы, в реализации каких метаболических путей они принимают участие.
На следующем этапе осуществляют поиск новых потенциальных мишеней для действия лекарственных средств. Проблема поиска мишеней встала особенно остро в связи с ситуацией, сложившейся в области создания новых противомикробных средств (Smith, 1996). Во многих случаях возможности воздействия лекарств на известные белки-мишени - практически исчерпаны (как, например, в случаях ВИЧ, вирусов гриппа, микобактерий туберкулеза и др.). Это обусловило необходимость поиска новых молекулярных мишеней для лекарств. С другой стороны, применение современных эффективных подходов к созданию новых лекарств требует детального изучения потенциальной молекулярной мишени. При создании нового противомикробного средства необходимо также учитывать его возможный спектр действия и вероятные побочные эффекты. Перечисленные факторы создают предпосылки для использования генетической информации при выборе мишеней для действия противомикробных средств.
В 1999 году была опубликована первая работа, описывающая попытку выбора мишеней для действия лекарственных средств на основании сравнительного анализа генетической информации. Программа CATS (Computer-Aided Target Selection) была разработана с целью автоматизации выбора молекулярных мишеней для поиска новых противогрибковых средств (Spaltman, 1999). Вместе с тем, авторы преследовали цель создать достаточно гибкую систему, которая могла бы быть также использована применительно к другим фармакологическим группам.
Программа CATS предназначена для анализа геномов с целью поиска белков, которые могли бы рассматриваться как наиболее предпочтительные мишени для действия лекарственных веществ. В качестве входной информации программа использует аминокислотные последовательности, соответствующие генам рассматриваемого микроорганизма, сравнниваемых геномов и сопутствующую информацию.
Такой подход позволяет автоматизировать выбор потенциальных мишеней и определить приоритеты более детального изучения каждой из них, что сокращает число рассматриваемых объектов с нескольких тысяч до десятков (Spaltman, 1999).
Как видно из рассмотренного в данном разделе материала, подход к конструированию лекарств на основе биоинформатики носит комплексный характер: уже на стадии анализа генетических текстов (сравнительный анализ целых геномов, отдельных генов) приходится принимать во внимание известную на конкретный момент информацию о структуре и функции ряда белков из различных организмов, возможности создания метода тестирования, возможности построения модели 3D структуры выбранной мишени, и ряд других факторов.
3.2. От последовательности – к структуре и функции
В случае, когда молекула белка-мишени определена, но ее пространственная структура не известна, приходится прибегнуть к построению 3D модели данного белка. С этой целью в настоящее время применяют три группы методов: (1) распознавание фолда (укладки, упаковки) с использованием библиотеки известных фолдов; (2) предсказания ab initio на основе знаний об атомных взаимодействиях и архитектуре белковой глобулы; (3) моделирование по гомологии.
Распознавание фолда – это первая стадия для построения модели трехмерной структуры белка. Оно применяется, если отсутствует информация о близких гомологах исследуемого белка, пространственная структура которых расшифрована ранее. Хотя при этом удается предсказать корректно укладку для ~75% белков (Koehl, 1999), "разрешение" построенной таким образом модели не достаточно, чтобы использовать ее в дальнейших исследованиях как базовую для выявления механизма функционирования макромолекул.
При предсказании ab initio целью является построение модели 3D структуры без использования знаний по структуре гомологов. Эти методы близки к методам предсказания фолда как по точности распознавания, так и по "разрешению" (Koehl, 1999).
Предсказание трёхмерной структуры белка по известной аминокислотной последовательности осуществляется наиболее успешно, когда известна пространственная структура одного или нескольких его гомологов. В этих случаях информация об известных структурах может экстраполироваться на новую аминокислотную последовательность, что позволяет получить 3D модель до расшифровки структуры нового белка методами рентгеноструктурого анализа или ЯМР. Такой подход получил название сравнительного моделирования (иногда используются также термины - моделирование по гомологии или моделирование, основанное на знаниях).
Первые попытки моделирования пространственной структуры белков, основанные на гомологии с другими белками, были предприняты в конце шестидесятых - начале семидесятых годов с использованием конструкцией из проволоки и пластиковых моделей (Browne, 1969). Значительно позже начали использовать интерактивную компьютерную графику (Issaks, 1978). Были„выполненыЃэксперименты по„{оделировани}„трехмерной„стр}ктурыuряда„белковp„в„частностиu„?„}актальбуминаѓна„осно{е„„D структуры лизоцима, процент идентичности между аминокислотными последовательностями которых равен 39% (Browne, 1969); ??литической‰проте{зы„грибов„на„основе„структур„химотрипсина€млекопитающих„и„элас{азы…„процент}идентичности„между а}иноки{лотными„последовательностями„которых„был„порядка„u„% (McLachlan, 1971); инсулиноподобных факторов роста на основе структуры инсулина свиньи (Blundell, 1978); ренина на основе структур пепсина и химозина (Frazao, 1994; Johnson, 1994); и другие. В результате этих экспериментов было показано, что моделирование дает хорошие результаты, если гомология между аминокислотными последовательностями рассматриваемых белков достаточно высока, но становится ненадежным, если эта гомология составляет менее 30% (Srinivasan, 1996).
В настоящее время разработано достаточно большое число различных подходов к сравнительному моделированию (см. в кач. обзора – Johnson, 1994). Одним из наиболее широко используемых является метод, первоначально разработанный Бланделом с соавт. (Blundell, 1987, 1988) и реализованный в программе COMPOSER комплекса молекулярного моделирования SYBYL (TRIPOS, Inc.).
При построении трехмерной модели для новой аминокислотной последовательности эта полипептидная цепочка сначала "вписывается" в координаты, соответствующие остаткам гомологичного белка с расшифрованной пространственной структурой, а затем осуществляется минимизация внутримолекулярной энергии, чтобы "убрать" возможные напряжения в структуре. В дальнейшем методами молекулярной динамики моделируется Броуновское движение отдельных частей молекулы с целью уточнения расположения гибких участков (петель) (Srinivasan, 1996). Качество полученной модели оценивают с использованием программы PROCHECK (Laskovski, 1993), к{тораяЂсравн‘вает‚распределениеuуглов„?„и„?„аминокислотныхyостатков|моделируемого бел}аyс~изв{стной|статистикой„Ђполученно{„для р}да„белковyс‚расши}рованнойqэкспе{иментально„пространственной„структурой„„ Построенные таким способом модели были успешно использованы для конструирования, например: новых ингибиторов протеазы вируса иммунодефицита человека для лечения СПИДа; ингибиторов ренина, как средств для лечения эссенциальной гипертензии; для белковой инженерии гибридных нейротрофных факторов; и т.д. (Srinivasan, 1996).
Сравнительная оценка различных подходов к предсказанию пространственной структуры белка по аминокислотной последовательности традиционно проводится в Асиломаре (Калифорния, США). При этом авторам методов предсказания предъявляются аминокислотные последовательности белков, пространственная структура которых будет расшифрована к моменту очередного рабочего совещания CASP (Critical Assessment of Structure Prediction). Предсказание, таким образом, делается "вслепую", что позволяет объективно оценить его результаты. Недавно состоялось уже третье рабочее совещание CASP-3, на котором были обсуждены предсказания, сделанные 98 группами исследователей для 36 белков, структура которых была расшифрована к моменту проведения совещания (Koehl, 1999). По итогам CASP-3 было сделано заключение, что наилучшие предсказанные модели могут быть охарактеризованы величинами среднеквадратичного отклонения в расположении С? атомов 0.2, 0.4, и 0.6 нм. Разрешение 0.2 нм может быть достаточным для использования таких моделей с целью исследования механизма функционирования макромолекул. Разрешение 0.4 нм позволяет определить, какие остатки расположены по одну сторону молекулы и может быть использовано в планировании экспериментов. Разрешение 0.6 нм – слишком грубое и не может применяться ни в планировании дальнейших экспериментов, ни в анализе структурно-функциональных соотношений (рис.6).
Второй подход, широко используемый в биоинформатике – это анализ биологических текстов как таковых с целью выяснения функции как целых молекул, так и их отдельных фрагментов. При этом используется только информация, содержащаяся в аминокислотной последовательности. Результаты такого рода работ оформляются в виде структурно-функциональных карт, на которых отмечены вероятные участки, участвующие в обеспечении каталитической активности, пространственной конформации, взаимодействии с белками-партнерами и т.п.
1. Моделирование по гомологии ядра белковой глобулы;
2. Моделирование активного центра (для фермента);
3. Моделирование поверхностных петель;
4. Моделирование мембранного якоря (для мембранного белка).
Рис. 6. Основные задачи компьютерного моделирования трехмерной структуры белка.
Стратегия предсказания функционально значимых фрагментов белка применима только при наличии группы белков, обладающих сходными каталитическими свойствами. Такая группа формируется на первом этапе с использованием поиска по гомологии (BLAST) и/или информации, известной из эксперимента. Далее, среди гомологов выделяются семейства и подсемейства при помощи методов кластерного анализа на основании результатов парного выравнивания. Выделение кластеров необходимо, чтобы избежать вырожденности, т.е. искусственного преобладания высокогомологичных последовательностей одной группы.
Следующий этап - иерархическое множественное выравнивание. Белки в каждой группе выравниваются и заменяются одной консенсусной последовательностью или строятся соответствующие частотные профили. Их можно рассматривать как гипотетические белки-прародители (БП) для данной группы. На следующем уровне иерархии уже производится выравнивание БП.
БП для группы функционально родственных белков анализируется статистическими методами. При этом переход от строки символов к нормально распределенной величине осуществляется при помощи статистического критерия Шермана. Последняя характеризует, насколько сгруппированы консервативные остатки вдоль БП. Очевидно, что значимость одиночного консервативного остатка намного меньше, чем значимость кластера из нескольких инвариант.
На рис.7 представлен результат применения описанной стратегии к цитохромам Р450 семейства CYP51, катализирующих 14-деметилирование стероидных субстратов. Пики на рисунке соответствуют структурно-функциональным мотивам. Это подтверждается данными точечного мутагенеза (Marichal, 1999) и независимых полуэмпирических предсказаний (Aoyama, 1996). Остатки, входящие в найденные мотивы, по-видимому, играют роль в связывании с субстратом. Полученные данные совместно с результатами молекулярного моделирования можно использовать для модификации уже существующих противогрибковых препаратов с тем, чтобы получить лиганды – ингибиторы этого фермента, ген которого совсем недавно был обнаружен в M.tuberculosis.
В качестве другого примера можно привести недавно выполненный в НИИ биомедхимии РАМН анализ аминокислотных последовательностей оболочечных белков Е1 и Е2 различных штаммов вируса гепатита С человека. Путем множественного выравнивания 827 аминокислотных последовательностей (рис.8) были определены наиболее консервативные фрагменты и гипервариабельный участок. Эти данные являются основой для создания ингибиторов, блокирующих взаимодействие вируса с рецептором CD81; ингибиторов, блокирующих фолдинг белков вируса; синтеза антигенных детерминант; создания вакцин.
Рис. 7. Анализ консенсусной последовательности цитохромов Р450 семейства CYP51
Таким образом, наибольшей эффективности в анализе аминокислотных последовательностей можно добиться последовательно применяя различные методы биоинформатики. Стратегии такого рода настраиваются и апробируются на конкретных надсемействах, но общий принцип применим к белкам всех классов. Основное в подходе - это определение функционально значимых участков в последовательности, минуя стадию построения молекулярной модели.
Рис.8. Характеристика выровненных 827 последовательностей оболочечных белков E1 и E2 ВГС человека. Процентное содержание преобладающих остатков в позициях выравнивания; б) высоконсервативные участки (CR1 - CR6) и гипервариабельный участок HVR1.
3.3. ОТ СТРУКТУРЫ – К МЕХАНИЗМАМ ФУНКЦИОНИРОВАНИЯ МАКРОМОЛЕКУЛ
На основе построеннной модели трехмерной структуры макромолекулы-мишени, например, фермента, методами молекулярной динамики можно изучать механизмы функционирования макромолекул. При этом моделируется роль отдельных функциональных групп в каталитическом акте, вероятные движения субстрата и продукта реакции по отношению к активному центру фермента.
Рассмотрим это на примере недавно построенной модели трехмерной структуры цитохрома Р450 1А2 (Белкина и др., 1998).
На первом этапе был проведен сравнительный анализ первичных структур 4-х бактериальных цитохромов, пространственная структура которых определена экспериментально, с аминокислотной последовательностью CYP1A2.
Трехмерные координаты атомов, расположенных в структурно-консервативных участках, для молекулы CYP1A2 были взяты из соответствующих участков бактериальных цитохромов P450. Для петель белковой цепи, которые не вошли в состав структурно-консервативных фрагментов, координаты подбирались из гомологичных участков различных белков из PDB (Fine, 1986) или создавались de novo. Полученная структура CYP1A2 была оптимизирована с помощью процедуры минимизации энергии.
Качество полученной модели проверялось с помощью широко применяемых в литературе специализированных программ ERRAT (Colovos, 1993) и PROCHECK (Morris, 1992), первая из которых оценивает невалентные межатомные взаимодействия, а вторая - стереохимические параметры полипептидной цепи и каждого аминокислотного остатка. Полученные результаты позволяют рассматривать эту модель как достоверную.
Модели комплексов CYP1A2 с субстратами - кофеином и 7-этоксирезоруфином - были построены с помощью геометрического докинга, выполненного с применением созданной в НИИ биомедхимии РАМН компьютерной программы DockSearch (DockSearch, 1999), с последующей оптимизацией методами молекулярной динамики в присутствии воды.
На рис. 9 представлены изменения во времени расстояний между кислородом, связанным с атомом железа гема, и рядом функционально важных атомов субстратов. Показано, что структура обоих комплексов в процессе динамики достигает стационарности, и в этом состоянии ориентация субстратов относительно гема позволяет предсказать роль отдельных аминокислотных остатков в механизме 3-деметилирования кофеина и О-деэтилирования 7-этоксирезоруфина и затем проверить правильность этих моделей с помощью точечного мутагенеза.
Методы биоинформатики в настоящее время эффективно используются для выяснения механизма взаимодействия макромолекул (узнавания). Методы "стыковки" (докинга) или нахождения в белках мест взаимодействия с низкомолекулярными лигандами или друг с другом начинают доминировать не только в конструировании новых лекарств, но и в исследованиях механизма взаимодействия (узнавания) белковых молекул.
В качестве примера можно привести исследования, выполненные в НИИ биомедхимии РАМН по анализу взаимодействия друг с другом цитохромов b5 и P450cam (CYP 101). В PDB имеются файлы с кристаллической структурой цитохрома Р450cam и водорастворимого фрагмента цитохрома b5 (t-b5). К сожалению, до сих пор не получены кристаллы полноразмерного цитохрома b5 (d-b5), содержащего кроме водорастворимого фрагмента (t-b5), еще и мембранный участок, обеспечивающий его встраивание в мембрану. Поэтому на первом этапе работы мембранный фрагмент был с помощью докинга пристыкован к кристаллической структуре (t-b5) с последующей оптимизацией данной структуры в двухфазной системе вода/бензол. После этого кристаллические структуры цитохромов P450cam и t-b5, а также сгенерированная из t-b5 и мембранного участка модель (d-b5) были подвергнуты докингу с целью определения мест связывания и прочности присоединения образовавшихся комплексов (рис.10 и рис.11). Оказалось, что t-b5 и d-b5 имеют различные центры связывания на цитохроме P450cam и при этом комплексы t-b5 с цитохромом P450cam оцениваются как намного более прочные в сравнении с комплексами d-b5 с цитохромом P450cam (красные круги на рис.11). Экспериментальная проверка с помощью биосенсорного анализа реакции комплексообразования t- и d-b5 с цитохромом P450cam полностью подтвердила сделанные предсказания: Kd для комплекса t-b5 с цитохромом P450cam равна 0.1+0.05 х 10-7 М, а для комплекса d-b5 с цитохромом P450cam - соответственно 0.4+0.1 х 10-5 М (рис.12).
Таким образом, методы молекулярного моделирования с последующим докингом и молекулярной динамикой являются в настоящее время важным методическим инструментом для исследования механизма функционирования макромолекул.
Реакция 3-деметилирования кофеина CYP1A2
Реакция O-деэтилирования 7-этоксирезоруфина CYP1A2
|
|
А. Схема взаиморасположения гема и молекулы кофеина в комплексе CYP1A2/кофеин.
|
Б. Схема взаиморасположения гема и молекулы 7-этоксирезурфина в комплексе CYP1A2/7-этоксирезурфин.
|
Рисунок 9a. Моделирование с помощью молекулярной динамики: изменение во времени расстояний R1, R3 и R7 (см. схему А) в комплексе CYP1A2/кофеин.
Достарыңызбен бөлісу: |