Методическое пособие и описание лабораторной работы (препринт) Составители: д т. н. Кирьянов К. Г. аспирант Семенчуков И. В



бет1/3
Дата01.04.2016
өлшемі326.52 Kb.
#64612
түріМетодическое пособие
  1   2   3
Министерство общего и профессионального образования Российской Федерации

Нижегородский государственный университет им. Н.И. Лобачевского

Радиофизический факультет

Филиал кафедры радиотехники в Нижегородском научно-исследовательском приборостроительном институте "Кварц"



Компьютерный спектральный анализ генетических текстов

Методическое пособие и описание лабораторной работы (препринт)

Составители: д. т. н. Кирьянов К.Г.

аспирант Семенчуков И.В.

Под общей редакцией руководителя филиала д. т. н. Кирьянова К.Г.

Зав. кафедрой, профессор Орлов И.Я.

Нижний Новгород

1998


Содержание

  1. Введение.

  2. Цель работы.

  3. Используемые термины и обозначения.

  4. Объект исследования.

  5. Краткие теоретические сведения о спектральном анализе последовательностей.

  6. Методики применения спектрального анализа в исследовании генетических текстов.

  7. Описание алгоритма и программы.

  8. Контрольные вопросы (для допуска к работе).

  9. Ориентировочные направления лабораторных работ.

  10. Задание к работе.

  11. Содержание отчета.

  12. Рекомендуемая литература.

  13. Приложения.

  1. Введение.

В работе одного из основоположников квантовой механики Э. Шредингера "Что такое жизнь" высказывалась гипотеза о строении молекулы "наследственного вещества". Как выяснилось впоследствии, это вещество представляет собой нуклеиновые кислоты (ДНК и РНК) – длинные цепочки из сложных химических комплексов четырех типов, называемых нуклеотидами. Это аденин – A, гуанин – G, цитозин – C и тимин – T (урацил – U в РНК). Эти последовательности, названные Шредингером "апериодическими кристаллами" [1], хранятся в хромосомах каждой клетки. ДНК, содержащаяся в наборе хромосом каждого организма, называется геномом. Наследственная информация, хранящаяся в геноме, определяет на этапе белкового синтеза на основе "универсального биологического кода" (УБК) фенотип организма – внешний вид, сходство с родителями и т. п.

Сегодня для многих организмов уже установлен нуклеотидный состав их ДНК или ее частей. Одной из важных задач теории и практики на сегодняшний день является проблема расшифровки нуклеотидных последовательностей – генетических текстов, и их "понимания". Под расшифровкой понимается разбиение всего генома – «слитного» текста – на смысловые участки – «предложения», явно не разделенные «знаками препинания». Эта задача особенно важна в отношении генома человека (состоящего из 3∙109 "букв"), поскольку помогает в решении проблем установления родства, диагностики наследственных заболеваний, определения возраста организма [2–5]. Исследования в рамках данной проблемы проводятся с привлечением различных отраслей науки, способных помочь ее решению. Для изучения генома используется широкий спектр химических, биохимических, физических и биофизических методов исследования.



  1. Цель работы.

В данной работе для исследования последовательностей ДНК и РНК применяется метод компьютерного спектрального анализа генетических текстов. В основе этого метода лежит дискретное преобразование Фурье, которое применяется к закодированным числами нуклеотидным цепочкам. Целью работы является исследование спектров различных функциональных участков нуклеотидных последовательностей различных организмов.

Данное методическое пособие и лабораторная работа соответствуют одному из разделов спецкурса "Математические модели в радиофизике: идентификация, диагностика, прогнозирование" для магистров и студентов IV и V курсов радиофизического факультета ННГУ.



  1. Используемые термины и обозначения.

Аминокислоты – класс органических кислот, у которых одновременно присутствует аминогруппа (–NH2) и карбоксильная группа (–COOH). Только 20 аминокислот участвуют в образовании белков.

Пептид – молекула из двух аминокислот, соединенных между собой при помощи пептидной связи –CO–NH–. Дальнейшее присоединение аминокислот к такой молекуле приводит к образованию полипептида.

Белки (протеины) представляют собой полипептиды, в молекулу которых входят от 100 до нескольких тысяч аминокислот, с молекулярной массой свыше 10000.

Нуклеотид – молекула, состоящая из одного пуринового или пиримидинового основания, пентозы (сахар с 5 атомами углерода) и остатка фосфата (–OP(O)(OH)2). Является «строительным блоком» нуклеиновых кислот. Наиболее распространены пять нуклеотидов: аденин (A), гуанин (G), тимин (T), цитозин (C) и урацил (U). (Примечание: урацил в РНК – эквивалент тимина в ДНК)

ДНК (дезоксирибонуклеиновая кислота) – носитель генетической информации. В основном находится в хромосомах клеточного ядра. Состоит в основном из A, G, T и C.

РНК (рибонуклеиновая кислота) служит для передачи и реализации генетической информации в большинстве клеточных систем. У многих простейших вирусов ДНК отсутствует; ее функции выполняет РНК. Состоит в основном из A, G, C и U.

Геном – ДНК, содержащаяся в одном наборе хромосом.

Ген – это элементарная единица наследственности, представляющая собой определенную специфическую последовательность нуклеотидов в ДНК.

мРНК (матричная РНК) осуществляет непосредственную передачу кода ДНК (гена) для синтеза клеточных белков.

тРНК (транспортная РНК) – РНК, основной функцией которой является транспорт аминокислот на соответствующий участок мРНК в процессе синтеза белков.

Кодон – единица генетической информации, закодированной в генах. Представляет собой группу из трех нуклеотидов, иначе называемую триплетом. Всего существует 43=64 различных кодонов.

Трансляция – процесс синтеза белка, при котором последовательность нуклеотидов в ДНК переводится в соответствующую последовательность аминокислот.

УБК (универсальный биологический код) – это система расположения нуклеотидов в нити ДНК, обусловливающая соответствующую последовательность расположения аминокислот в белке. Каждой аминокислоте в белке соответствует кодон в ДНК. Все синтезируемые в процессе трансляции белки построены из остатков 20 аминокислот. Какой именно кодон ответственен за включение той или иной аминокислоты, можно определить по таблице приложения 1.

УБК специфичен: каждый кодон кодирует только одну аминокислоту.

УБК называют вырожденным, поскольку 61 кодон кодирует всего 20 аминокислот (остальные 3 кодона является «сигналами» остановки синтеза белка).

УБК неперекрывающийся – кодоны транслируются всегда целиком; для кодирования невозможно использование элементов одного из них в сочетании с элементами соседнего.

УБК обладает также свойством однонаправленности – кодоны информативны только в том случае, если они считываются только в одном направлении – от первого нуклеотида к последующим.

УБК универсален для всех живых существ. Возможны только небольшие видовые изменения, большинство из которых связано с вырожденностью кода.



и - реальная и мнимая части комплексного числа .

N – длина “окна анализа” – участка нуклеотидной последовательности.

w – относительная частота.

T – период.

  1. Объект исследования.

Основным объектом исследования в данной работе является ДНК, которая представляет собой цепочку более чем из 108 нуклеотидов. Из курса биологии известно, что ДНК является носителем наследственной информации всех живых организмов, включая человека, и отвечает за развитие (рост и размножение) клеток.

«Строительными блоками» нуклеиновых кислот служат нуклеотиды. Известно по меньшей мере десять их видов, но основным материалом служат всего 4 из них: аденин – A, гуанин – G, тимин – T (в РНК урацил – U) и цитозин – C. Связываясь друг с другом, нуклеотиды образуют очень длинные полинуклеотидные цепочки. Последовательность нуклеотидов в нити ДНК называется первичной структурой (пример – …AGTAACTGAC…).

Установлено, что молекула ДНК представляет собой совокупность генов, регуляторных участков, районов, участвующих в организации генов в хромосомах, а также последовательностей, функции которых еще не известны. Ген – функциональная единица ДНК, содержащая информацию для синтеза полипептида (белка) и РНК. Средняя длина гена около 1000 пар оснований. Сам ген не принимает непосредственного участия в синтезе, а служит лишь матрицей для построения молекулы мРНК (в которую передается код гена), или предшественников рРНК и тРНК (из них после промежуточных реакций получаются готовые рРНК и тРНК).

Существует множество литературы, посвященной строению и свойствам генетического аппарата. Для получения дополнительных сведений об объекте исследования обратитесь к литературе [2-5].

Для того, чтобы проводить исследования ДНК, необходимо знать ее первичную структуру. Процесс определения последовательности нуклеотидов в ДНК называется секвенированием. В настоящее время секвенировано уже очень много ДНК самых разных организмов и проведен их анализ, заключающийся в определении местонахождения генов и других функциональных участков и определении их свойств. Для обеспечения возможности широкого доступа к информации об уже исследованных ДНК были созданы банки данных (БД). В данной работе используется информация из двух таких БД – "GenBank" [6] и "EMBL" (Европейская Молекулярно-Биологическая Лаборатория в Гейдельберге, Германия). Записи в этих банках имеют схожий друг с другом формат. Помимо самой нуклеотидной последовательности, в них содержится подробная информация о ее свойствах и приводятся ссылки на источники данных. Формат базы EMBL приведен в приложении 2.

Рассмотрим нуклеотидную последовательность на примере ДНК генома митохондрий человека (файл HUMMTCG.SEQ, БД GenBank, см. приложение 3). Первые два поля представляют краткую информацию о последовательности (размер, принадлежность к организму). Следующее поле определяет ключи поиска данной записи в БД. В четвертом, пятом и шестом полях приводятся ключевые слова и описание организма – источника ДНК (РНК).

Следующая группа полей представляет собой ссылки на литературу, содержащую информацию о представленной последовательности. Затем идет поле FEATURES, представляющее наибольший интерес. В нем приводится уже известная информация о структуре ДНК (РНК): тип и расположение участков ДНК, и краткие комментарии (антикодон для тРНК, название гена для мРНК и т.п.).

Последним полем является поле ORIGIN, содержащее саму последовательность. Каждая строка содержит порядковый номер первого нуклеотида в строке. Нуклеотидная последовательность в строке размещена шестью группами (по десять нуклеотидов в каждой), разделенными пробелами.



  1. Краткие теоретические сведения о спектральном анализе последовательностей.

Рассмотрим произвольный числовой ряд комплексных чисел конечной длины N, . Число N носит название длины окна анализа. В математике [7] доказано, что его можно разложить в ряд Фурье с коэффициентами

(1), где

Здесь – относительная частота, – период.



(2),

(3).

Совокупность коэффициентов Фурье S(k, N) называют спектром ряда x(n).

Если ряд x(n) вещественный, то формулы (2)-(3) приобретают вид:

(2а),

(3а).

В настоящей работе и программной системе используются простейшие способы кодирования нуклеотидов ДНК- и РНК-последовательностей вещественными числами.

Из формул (2а)-(3а) видно, что спектр вещественного ряда симметричен относительно точки k = N / 2, поэтому можно ограничиться интервалом .

Если известен спектр S(k,N) какой-либо последовательности x(n), то вычисление ее элементов производится при помощи обратного преобразования Фурье:



(4).

Более подробную информацию о свойствах спектров смотрите в [7-9].

Приведем пример спектрального анализа периодической последовательности периода 3 длиной N=999: (рис.1).




Рис.1. Спектр периодической последовательности с периодом 3 длиной 999

Из рисунка 1 видно, что спектр имеет пик при w = 0.33 (T = 3), что говорит о наличии в последовательности только периода 3. Как увидим далее (см. Приложение 4), пик на периоде 3, окруженный "шумовым фоном", есть у спектров ДНК-последовательностей.

  1. Методики применения спектрального анализа в исследовании генетических текстов.

Для возможности вычисления спектра какого-либо участка нуклеотидной последовательности определенной длины (в "окне анализа") необходимо представить этот участок числовым рядом вида x(n) – закодировать последовательность. Каждому нуклеотиду в цепочке ДНК нужно сопоставить его значение, являющееся элементом ряда.

Здесь возникает важный вопрос о выборе способа кодирования: разные подходы к кодировке нуклеотидов могут дать совершенно разные картины спектров. При анализе функциональных участков-генов оптимальная кодировка дает сильное отличие при сравнении с другими участками – в картинах спектров генов резко выделяется пик на периоде 3. За примерами графиков спектров генов можно обратиться к приложению 4.

Хорошие результаты при анализе спектров генов получаются, например, при следующих способах кодировки:


  1. соответствие более высокого кода нуклеотиду с более высокой молекулярной массой (столбец Код 1 табл. 1);

  2. обозначение одним и тем же кодом нуклеотидов одинакового класса соединений; A и G – пурины, U и C – пиримидины (столбец Код 2 табл. 1);

  3. обозначение одним и тем же кодом комплементарных нуклеотидов (столбец Код 3 табл. 1);

Таблица 1. Способы кодировки нуклеотидов

Нуклеотид
Код 1

Код 2

Код 3

U

0

0

1

C

1

0

0

A

2

1

1

G

3

1

0

При выборе длины последовательности нужно учитывать следующие факты:

  1. средняя длина гена, равна примерно 1000 нуклеотидов;

  2. у высших организмов ген в ДНК имеет прерывистую структуру: участки гена, называемые экзонами, прерываются интронами – некодирующими участками, удаляемыми в процессе синтеза мРНК;

  3. средняя длина участков ДНК, из которых синтезируется тРНК, равна 100 нуклеотидам;

  4. средняя длина участков ДНК, из которых синтезируется рРНК, может варьироваться от 200 до 5000 нуклеотидов. Такой широкий диапазон обусловлен существованием различных видов рРНК – существуют молекулы длиной примерно 120, 950÷1900 и 2000÷4800 нуклеотидов.

Полученные спектры могут иметь резко выделяющиеся пики на каких-либо периодах, например, на периоде 3. Для нахождения этого периода необходимо профильтровать полученный спектр узкополосным фильтром так, чтобы в результате фильтрации остался лишь нужный пик, а затем к профильтрованному спектру применить обратное преобразование Фурье.

  1. Описание алгоритма и программы.

В настоящей работе для исследования спектров нуклеотидных последовательностей используется специально разработанная для этого программа analys.exe.

Основные возможности программной системы:



  1. поддержка файлов форматов EMBL и GenBank – нахождение в файлах и загрузка самой нуклеотидной последовательности; ее длина должна быть не более 20000 нуклеотидов; при загрузке из файла произвольного формата должно быть выполнено требование – начало последовательности должно содержать 10 нуклеотидов подряд без пробелов в одной строке;

  2. программа кодирует нуклеотиды целыми положительными числами; при запуске программы имеется возможность изменения таблицы кодировки нуклеотидов; для этого после указания имени загружаемого файла с последовательностью в ответ на запрос об изменении кодировки нужно ответить Y и затем ввести код для каждого нуклеотида, завершая ввод клавишей ;

  3. программа позволяет выполнить спектральный анализ подпоследовательности с выбором окна анализа с произвольными началом (но не более, чем длина загруженной последовательности) и длиной (но не более, чем разность между длиной последовательности и координатой начала окна); при нажатии нужно ввести начало окна и нажать , затем ввести длину окна и также нажать ; при смене атрибутов окна нужно сначала нажать , затем > и снова выполнить вышеперечисленные действия;

  4. просмотр и запись в файл формата .PCX графика спектра с автомасштабированием по оси Y в фиксированном диапазоне относительных частот (0÷0.5, или периоды 2 ÷ + ∞); для записи графика в файл необходимо нажать клавишу , затем указать имя файла в формате имя.pcx, где имя должно удовлетворять стандартному соглашению DOS;

  5. возможность плавного движения окна по последовательности вперед и назад с шагом 1 (клавиши <стрелка вправо> и <стрелка влево>) и 10 (клавиши
    и
    );; возможность плавного увеличения/уменьшения длины окна с шагом 1 (клавиши <стрелка вверх> и <стрелка вниз>);

  6. вычисление обратного преобразования Фурье с фильтрацией спектра фильтром с прямоугольной характеристикой; для этого нужно после вычисления спектра нажать , переместить стрелками вертикальную черту, указав середину фильтруемого участка и нажать ; после появления числа-координаты черты ввести координаты левого и правого концов фильтра;

Приведем пример сеанса работы с программой analys.exe – спектральный анализ нуклеотидной подпоследовательности ДНК генома митохондрий человека (файл hummtcg.seq), начало – 4470 нуклеотид, длиной N=1042 нуклеотида.

Нужно запустить программу analys.exe. В ответ на приглашение ввести имя файла последовательности – hummtcg.seq и нажать . На предложение изменить кодировку ответить N (нет).



После этого Вы увидите экран, соответствующий рис.2.



Рис.2. Основной экран программы analys.exe

При нажатии клавиши будет выдан запрос о начале окна анализа. Необходимо набрать 4470 и нажать . Потом в ответ на запрос о длине окна ввести, например, 1042 и нажать . После этого программа сосчитает и выведет в нижней половине экрана спектр, соответствующий рис.3.



Рис.3. Спектр участка ДНК генома митохондрий человека, начало – 4470 нуклеотид, длина 1042 нуклеотида

Спектр имеет резкий пик на периоде 3. Полученный результат можно интерпретировать следующим образом: это спектр промодулированного сигнала с частотой несущей, равной 3.

  1. Контрольные вопросы (для допуска к работе).

  1. Какую литературу, относящуюся к спектральному анализу генетических текстов, Вы читали?

  2. Где и как хранится наследственная информация?

  3. Что такое геном, ДНК, РНК, ген, кодон, функциональный участок ДНК, экзон, интрон?

  4. Что такое аминокислотная последовательность?

  5. Какие существуют типы структур ДНК и белков и количественные характеристики их и их частей?

  6. Почему "алфавиты" генетических текстов имеют 4 и 20 символов?

  7. Что такое "УБК"? каковы его основные свойства?

  8. Как получить информацию о генетическом тексте?

  9. Какие существуют потоки генетической информации?

  10. Как подготовить файл для спектрального анализа с помощью программы?




  1. Ориентировочные направления и темы лабораторных работ.

  1. Как выбрать длину последовательности?

  2. Пронаблюдать, как зависит спектр последовательности от ее посимвольной кодировки целыми числами с q =0, 1, 2, 3, 4, …

  3. Что может дать другая кодировка последовательностей: отрицательными и положительными целыми числами, вещественными числами; комплексными числами; кодировка двоек, троек (покодонная), четверок и др.

  4. Как изменится спектр при кодировке последовательности целыми числами по пуринам (A, G) и пиримидинам (U, C)?

  5. Что такое оптимальная кодировка и как ее найти?

  6. Как выбрать начало и длину анализируемой последовательности?

  7. Что дает обратное преобразование полученного спектра?

  8. Что дает обратное преобразование спектра, профильтрованного узкополосным фильтром?

  9. Как с помощью спектрального анализа определить функциональные участки генетических текстов?

  10. Какие методы компьютерной обработки генетических текстов Вы могли бы порекомендовать?




  1. Задание к работе.




  1. Перед выполнением работы необходимо ознакомиться с данным руководством и рекомендованной литературой. Ответить на контрольные вопросы, которые являются допуском к работе.

  2. Ознакомиться с приемами работы с программой analys.exe на примере файла HUMMTCG.SEQ;

  3. Получить у преподавателя файлы с последовательностями и указания к составлению отчета.

  4. Обосновать экспериментально выбор границ и размеров участков для спектрального анализа.

  5. Провести спектральный анализ выбранных преподавателем участков последовательности.

  6. Предложить, обосновать и проверить экспериментально другую кодировку нуклеотидов.

  7. Предложить варианты использования спектральной информации для выбора функциональных участков ДНК и РНК. Провести экспериментальное обоснование методов.

  8. Оформить отчет по результатам работы в соответствии с разделом 11.



  1. Содержание отчета.

  1. Название работы.

  2. Согласованную с преподавателем формулировку задания и дату его получения.

  3. Выбор и обоснование параметров метода решения задачи.

  4. Полученные в ходе исследования результаты и их анализ.

  5. Приложение, содержащее необходимые распечатки и доказательства.

  6. Выводы.




  1. Рекомендуемая литература.




  1. Шредингер Э. Что такое жизнь. М.: Гос. изд-во иностранной литературы, 1947

  2. Ичас. Биологический код. М.: Мир, 1971

  3. Шапвиль Ф., Энни А.-Л. Биосинтез белка. М.: Мир, 1977.

  4. Зенгбуш Л. Молекулярная и клеточная биология (в трех томах). М.: Мир, 1982.

  5. Льюин Б. Гены. М., Мир, 1987.

  6. Кирьянов К.Г., Лебедев О.Л. Почему биологические алфавиты имеют 4 и 20 букв? Биофизика, том 40, вып. 3, 1995, с. 536-538.

  7. GenBank. National Center for Biotechnology Information. National Library of Medicine, National Institutes of Health. 8600 Rockville Pike, Bethesda, MD 20894. 301-496-2475. Rel. 77.0. June 15, 1993.

  8. Марпл - мл., Стэнли Лоренс. Цифровой спектральный анализ и его приложе­ния. М.: Мир, 1990.

  9. Кривошеев В.И. ДПФ и БПФ.

  10. Кирьянов К.Г., Кривошеев В.И. Цифровой спектральный анализ (периодограммный и коррелеграммный методы). Методическое пособие. Нижегородский госуниверситет, 1993.

  11. M. S. Gelfand. Global Methods for the Computer Prediction of Protein-Coding Regions in Nucleotide Sequences (A Review).

  12. Александров А.А., Александров Н.Н., Бородовский М.Ю. и др. Компьютерный анализ генетических текстов. М.: Наука, 1990.

  13. Макеев В.Ю., Франк Г.К., Туманян В.Г. Статистика периодических законо­мерностей в последовательностях интронов человека М., Наука. Биофизика, том 41, вып. 1., 1996.

  1. Приложения.


Приложение 1. Таблица универсального биологического кода (генетического кода).

I

Классы эквивалентности кодонов в строках таблицы УБК

ai

Кодируемые аминокислоты

1

UUU

UUC













2

Phe F

2

UUA

UUG

CUU

CUC

CUA

CUG

6

Leu L

3

UCU

UCC

UCA

UCG

AGU

AGC

6

Ser S

4

UAU

UAC













2

Tyr Y

5

UGU

UGC













2

Cys C

6

UGG
















1

Trp W

7

CCU

CCC

CCA

CCG







4

Pro P

8

CAU

CAC













2

His H

9

CAA

CAG













2

Gln Q

10

CGU

CGC

CGA

CGG

AGA

AGG

6

Arg R

11

AUU

AUC

AUA










3

Ile I

12

AUG
















1

Met M

13

ACU

ACC

ACA

ACG







4

Thr T

14

AAU

AAC













2

Asn N

15

AAA

AAG













2

Lys K

16

GUU

GUC

GUA

GUG







4

Val V

17

GCU

GCC

GCA

GCG







4

Ala A

18

GAU

GAC













2

Asp D

19

GAA

GAG













2

Glu E

20

GGU

GGC

GGA

GGG







4

Gly G

21

UAA

UAG

UGA










3

Stop


Приложение 2. Описание формата базы данных EMBL.

В формате EMBL каждая запись (последовательность и описание) разбита на поля. Поле может состоять из одной или более строк длиной не более 72 символов. Строка всегда начинается с двухсимвольной метки, характеризующей данное поле, после метки идут три пробела. Запись может включать следующие поля:



ID (identifier) идентификатор, краткое описание, тип и длина последовательности;

AC (accession number) регистрационный номер последовательности;

CR (cross reference) ссылки на записи этой или других БД, имеющих отношение к данной последовательности;

DT (date) даты ввода и редактирования записи;

DE (description) описание последовательности;

DR (data reference) ссылка на другие базы данных;

KW (keywords) ключевые слова;

OS (organism species) название организма;

OD (organism description) дополнительная информация об организме, штамме, ткани и т.д.;

OC (organism classification) таксономия организма;

HS (host species) название организма-хозяина вируса, фага, органеллы;

HD (host description) дополнительная информация об организме, штамме, ткани и т.д. для хозяина;

HC (host classification) таксономия организма хозяина;

RN (reference number) номер библиографической ссылки;

RA (reference authors) авторы работы;

RT (reference title) название работы;

RL (reference location) библиографическая ссылка;

CC (comment) дополнительные комментарии для пользователя;

VR (variances) неопределенности, вариации, мутации и т.д.;

FH (feature header) заголовок таблицы особенностей;

FT (feature table) таблица особенностей;

XX пустые строки (вводятся для удобства чтения документа)

SQ (sequence statistics) длина и нуклеотидный состав последовательности;

(пробелы) сама последовательность;



// конец записи.

Приложение 3. Пример записи из базы данных GenBank (сокращенный вариант).


Достарыңызбен бөлісу:
  1   2   3




©dereksiz.org 2024
әкімшілігінің қараңыз

    Басты бет