Методическое пособие и описание лабораторной работы (препринт) Составители: д т. н. Кирьянов К. Г. аспирант Семенчуков И. В

жүктеу/скачать 326.52 Kb.

бет	1/3
Дата	01.04.2016
өлшемі	326.52 Kb.
	#64612
түрі	Методическое пособие

1 2 3

Компьютерный спектральный анализ генетических текстов
Нуклеотид Код 1 Код 2 Код 3
. PCX

Министерство общего и профессионального образования Российской Федерации

Нижегородский государственный университет им. Н.И. Лобачевского

Радиофизический факультет

Филиал кафедры радиотехники в Нижегородском научно-исследовательском приборостроительном институте "Кварц"

Компьютерный спектральный анализ генетических текстов

Методическое пособие и описание лабораторной работы (препринт)

Составители: д. т. н. Кирьянов К.Г.

аспирант Семенчуков И.В.

Под общей редакцией руководителя филиала д. т. н. Кирьянова К.Г.

Зав. кафедрой, профессор Орлов И.Я.

Нижний Новгород

1998

Содержание

Введение.
Цель работы.
Используемые термины и обозначения.
Объект исследования.
Краткие теоретические сведения о спектральном анализе последовательностей.
Методики применения спектрального анализа в исследовании генетических текстов.
Описание алгоритма и программы.
Контрольные вопросы (для допуска к работе).
Ориентировочные направления лабораторных работ.
Задание к работе.
Содержание отчета.
Рекомендуемая литература.
Приложения.

Введение.

В работе одного из основоположников квантовой механики Э. Шредингера "Что такое жизнь" высказывалась гипотеза о строении молекулы "наследственного вещества". Как выяснилось впоследствии, это вещество представляет собой нуклеиновые кислоты (ДНК и РНК) – длинные цепочки из сложных химических комплексов четырех типов, называемых нуклеотидами. Это аденин – A, гуанин – G, цитозин – C и тимин – T (урацил – U в РНК). Эти последовательности, названные Шредингером "апериодическими кристаллами" [1], хранятся в хромосомах каждой клетки. ДНК, содержащаяся в наборе хромосом каждого организма, называется геномом. Наследственная информация, хранящаяся в геноме, определяет на этапе белкового синтеза на основе "универсального биологического кода" (УБК) фенотип организма – внешний вид, сходство с родителями и т. п.

Сегодня для многих организмов уже установлен нуклеотидный состав их ДНК или ее частей. Одной из важных задач теории и практики на сегодняшний день является проблема расшифровки нуклеотидных последовательностей – генетических текстов, и их "понимания". Под расшифровкой понимается разбиение всего генома – «слитного» текста – на смысловые участки – «предложения», явно не разделенные «знаками препинания». Эта задача особенно важна в отношении генома человека (состоящего из 3∙10⁹ "букв"), поскольку помогает в решении проблем установления родства, диагностики наследственных заболеваний, определения возраста организма [2–5]. Исследования в рамках данной проблемы проводятся с привлечением различных отраслей науки, способных помочь ее решению. Для изучения генома используется широкий спектр химических, биохимических, физических и биофизических методов исследования.

Цель работы.

В данной работе для исследования последовательностей ДНК и РНК применяется метод компьютерного спектрального анализа генетических текстов. В основе этого метода лежит дискретное преобразование Фурье, которое применяется к закодированным числами нуклеотидным цепочкам. Целью работы является исследование спектров различных функциональных участков нуклеотидных последовательностей различных организмов.

Данное методическое пособие и лабораторная работа соответствуют одному из разделов спецкурса "Математические модели в радиофизике: идентификация, диагностика, прогнозирование" для магистров и студентов IV и V курсов радиофизического факультета ННГУ.

Используемые термины и обозначения.

Аминокислоты – класс органических кислот, у которых одновременно присутствует аминогруппа (–NH₂) и карбоксильная группа (–COOH). Только 20 аминокислот участвуют в образовании белков.

Пептид – молекула из двух аминокислот, соединенных между собой при помощи пептидной связи –CO–NH–. Дальнейшее присоединение аминокислот к такой молекуле приводит к образованию полипептида.

Белки (протеины) представляют собой полипептиды, в молекулу которых входят от 100 до нескольких тысяч аминокислот, с молекулярной массой свыше 10000.

Нуклеотид – молекула, состоящая из одного пуринового или пиримидинового основания, пентозы (сахар с 5 атомами углерода) и остатка фосфата (–OP(O)(OH)₂). Является «строительным блоком» нуклеиновых кислот. Наиболее распространены пять нуклеотидов: аденин (A), гуанин (G), тимин (T), цитозин (C) и урацил (U). (Примечание: урацил в РНК – эквивалент тимина в ДНК)

ДНК (дезоксирибонуклеиновая кислота) – носитель генетической информации. В основном находится в хромосомах клеточного ядра. Состоит в основном из A, G, T и C.

РНК (рибонуклеиновая кислота) служит для передачи и реализации генетической информации в большинстве клеточных систем. У многих простейших вирусов ДНК отсутствует; ее функции выполняет РНК. Состоит в основном из A, G, C и U.

Геном – ДНК, содержащаяся в одном наборе хромосом.

Ген – это элементарная единица наследственности, представляющая собой определенную специфическую последовательность нуклеотидов в ДНК.

мРНК (матричная РНК) осуществляет непосредственную передачу кода ДНК (гена) для синтеза клеточных белков.

тРНК (транспортная РНК) – РНК, основной функцией которой является транспорт аминокислот на соответствующий участок мРНК в процессе синтеза белков.

Кодон – единица генетической информации, закодированной в генах. Представляет собой группу из трех нуклеотидов, иначе называемую триплетом. Всего существует 4³=64 различных кодонов.

Трансляция – процесс синтеза белка, при котором последовательность нуклеотидов в ДНК переводится в соответствующую последовательность аминокислот.

УБК (универсальный биологический код) – это система расположения нуклеотидов в нити ДНК, обусловливающая соответствующую последовательность расположения аминокислот в белке. Каждой аминокислоте в белке соответствует кодон в ДНК. Все синтезируемые в процессе трансляции белки построены из остатков 20 аминокислот. Какой именно кодон ответственен за включение той или иной аминокислоты, можно определить по таблице приложения 1.

УБК специфичен: каждый кодон кодирует только одну аминокислоту.

УБК называют вырожденным, поскольку 61 кодон кодирует всего 20 аминокислот (остальные 3 кодона является «сигналами» остановки синтеза белка).

УБК неперекрывающийся – кодоны транслируются всегда целиком; для кодирования невозможно использование элементов одного из них в сочетании с элементами соседнего.

УБК обладает также свойством однонаправленности – кодоны информативны только в том случае, если они считываются только в одном направлении – от первого нуклеотида к последующим.

УБК универсален для всех живых существ. Возможны только небольшие видовые изменения, большинство из которых связано с вырожденностью кода.

- реальная и мнимая части комплексного числа

.

N – длина “окна анализа” – участка нуклеотидной последовательности.

w – относительная частота.

T – период.

Объект исследования.

Основным объектом исследования в данной работе является ДНК, которая представляет собой цепочку более чем из 10⁸ нуклеотидов. Из курса биологии известно, что ДНК является носителем наследственной информации всех живых организмов, включая человека, и отвечает за развитие (рост и размножение) клеток.

«Строительными блоками» нуклеиновых кислот служат нуклеотиды. Известно по меньшей мере десять их видов, но основным материалом служат всего 4 из них: аденин – A, гуанин – G, тимин – T (в РНК урацил – U) и цитозин – C. Связываясь друг с другом, нуклеотиды образуют очень длинные полинуклеотидные цепочки. Последовательность нуклеотидов в нити ДНК называется первичной структурой (пример – …AGTAACTGAC…).

Установлено, что молекула ДНК представляет собой совокупность генов, регуляторных участков, районов, участвующих в организации генов в хромосомах, а также последовательностей, функции которых еще не известны. Ген – функциональная единица ДНК, содержащая информацию для синтеза полипептида (белка) и РНК. Средняя длина гена около 1000 пар оснований. Сам ген не принимает непосредственного участия в синтезе, а служит лишь матрицей для построения молекулы мРНК (в которую передается код гена), или предшественников рРНК и тРНК (из них после промежуточных реакций получаются готовые рРНК и тРНК).

Существует множество литературы, посвященной строению и свойствам генетического аппарата. Для получения дополнительных сведений об объекте исследования обратитесь к литературе [2-5].

Для того, чтобы проводить исследования ДНК, необходимо знать ее первичную структуру. Процесс определения последовательности нуклеотидов в ДНК называется секвенированием. В настоящее время секвенировано уже очень много ДНК самых разных организмов и проведен их анализ, заключающийся в определении местонахождения генов и других функциональных участков и определении их свойств. Для обеспечения возможности широкого доступа к информации об уже исследованных ДНК были созданы банки данных (БД). В данной работе используется информация из двух таких БД – "GenBank" [6] и "EMBL" (Европейская Молекулярно-Биологическая Лаборатория в Гейдельберге, Германия). Записи в этих банках имеют схожий друг с другом формат. Помимо самой нуклеотидной последовательности, в них содержится подробная информация о ее свойствах и приводятся ссылки на источники данных. Формат базы EMBL приведен в приложении 2.

Рассмотрим нуклеотидную последовательность на примере ДНК генома митохондрий человека (файл HUMMTCG.SEQ, БД GenBank, см. приложение 3). Первые два поля представляют краткую информацию о последовательности (размер, принадлежность к организму). Следующее поле определяет ключи поиска данной записи в БД. В четвертом, пятом и шестом полях приводятся ключевые слова и описание организма – источника ДНК (РНК).

Следующая группа полей представляет собой ссылки на литературу, содержащую информацию о представленной последовательности. Затем идет поле FEATURES, представляющее наибольший интерес. В нем приводится уже известная информация о структуре ДНК (РНК): тип и расположение участков ДНК, и краткие комментарии (антикодон для тРНК, название гена для мРНК и т.п.).

Последним полем является поле ORIGIN, содержащее саму последовательность. Каждая строка содержит порядковый номер первого нуклеотида в строке. Нуклеотидная последовательность в строке размещена шестью группами (по десять нуклеотидов в каждой), разделенными пробелами.

Краткие теоретические сведения о спектральном анализе последовательностей.

Рассмотрим произвольный числовой ряд комплексных чисел

конечной длины N,

. Число N носит название длины окна анализа. В математике [7] доказано, что его можно разложить в ряд Фурье с коэффициентами

(1), где

Здесь – относительная частота, – период.

(2),

(3).

Совокупность коэффициентов Фурье S(k, N) называют спектром ряда x(n).

Если ряд x(n) вещественный, то формулы (2)-(3) приобретают вид:

(2а),

(3а).

В настоящей работе и программной системе используются простейшие способы кодирования нуклеотидов ДНК- и РНК-последовательностей вещественными числами.

Из формул (2а)-(3а) видно, что спектр вещественного ряда симметричен относительно точки k = N / 2, поэтому можно ограничиться интервалом .

Если известен спектр S(k,N) какой-либо последовательности x(n), то вычисление ее элементов производится при помощи обратного преобразования Фурье:

(4).

Более подробную информацию о свойствах спектров смотрите в [7-9].

Приведем пример спектрального анализа периодической последовательности периода 3 длиной N=999: (рис.1).

Рис.1. Спектр периодической последовательности с периодом 3 длиной 999

Из рисунка 1 видно, что спектр имеет пик при w = 0.33 (T = 3), что говорит о наличии в последовательности только периода 3. Как увидим далее (см. Приложение 4), пик на периоде 3, окруженный "шумовым фоном", есть у спектров ДНК-последовательностей.

Методики применения спектрального анализа в исследовании генетических текстов.

Для возможности вычисления спектра какого-либо участка нуклеотидной последовательности определенной длины (в "окне анализа") необходимо представить этот участок числовым рядом вида x(n) – закодировать последовательность. Каждому нуклеотиду в цепочке ДНК нужно сопоставить его значение, являющееся элементом ряда.

Здесь возникает важный вопрос о выборе способа кодирования: разные подходы к кодировке нуклеотидов могут дать совершенно разные картины спектров. При анализе функциональных участков-генов оптимальная кодировка дает сильное отличие при сравнении с другими участками – в картинах спектров генов резко выделяется пик на периоде 3. За примерами графиков спектров генов можно обратиться к приложению 4.

Хорошие результаты при анализе спектров генов получаются, например, при следующих способах кодировки:

соответствие более высокого кода нуклеотиду с более высокой молекулярной массой (столбец Код 1 табл. 1);
обозначение одним и тем же кодом нуклеотидов одинакового класса соединений; A и G – пурины, U и C – пиримидины (столбец Код 2 табл. 1);
обозначение одним и тем же кодом комплементарных нуклеотидов (столбец Код 3 табл. 1);

Таблица 1. Способы кодировки нуклеотидов
Нуклеотид	Код 1	Код 2	Код 3
U	0	0	1
C	1	0	0
A	2	1	1
G	3	1	0

При выборе длины последовательности нужно учитывать следующие факты:

средняя длина гена, равна примерно 1000 нуклеотидов;
у высших организмов ген в ДНК имеет прерывистую структуру: участки гена, называемые экзонами, прерываются интронами – некодирующими участками, удаляемыми в процессе синтеза мРНК;
средняя длина участков ДНК, из которых синтезируется тРНК, равна 100 нуклеотидам;
средняя длина участков ДНК, из которых синтезируется рРНК, может варьироваться от 200 до 5000 нуклеотидов. Такой широкий диапазон обусловлен существованием различных видов рРНК – существуют молекулы длиной примерно 120, 950÷1900 и 2000÷4800 нуклеотидов.

Полученные спектры могут иметь резко выделяющиеся пики на каких-либо периодах, например, на периоде 3. Для нахождения этого периода необходимо профильтровать полученный спектр узкополосным фильтром так, чтобы в результате фильтрации остался лишь нужный пик, а затем к профильтрованному спектру применить обратное преобразование Фурье.

Описание алгоритма и программы.

В настоящей работе для исследования спектров нуклеотидных последовательностей используется специально разработанная для этого программа analys.exe.

Основные возможности программной системы:

поддержка файлов форматов EMBL и GenBank – нахождение в файлах и загрузка самой нуклеотидной последовательности; ее длина должна быть не более 20000 нуклеотидов; при загрузке из файла произвольного формата должно быть выполнено требование – начало последовательности должно содержать 10 нуклеотидов подряд без пробелов в одной строке;
программа кодирует нуклеотиды целыми положительными числами; при запуске программы имеется возможность изменения таблицы кодировки нуклеотидов; для этого после указания имени загружаемого файла с последовательностью в ответ на запрос об изменении кодировки нужно ответить Y и затем ввести код для каждого нуклеотида, завершая ввод клавишей ;
программа позволяет выполнить спектральный анализ подпоследовательности с выбором окна анализа с произвольными началом (но не более, чем длина загруженной последовательности) и длиной (но не более, чем разность между длиной последовательности и координатой начала окна); при нажатии нужно ввести начало окна и нажать , затем ввести длину окна и также нажать ; при смене атрибутов окна нужно сначала нажать , затем > и снова выполнить вышеперечисленные действия;
просмотр и запись в файл формата .PCX графика спектра с автомасштабированием по оси Y в фиксированном диапазоне относительных частот (0÷0.5, или периоды 2 ÷ + ∞); для записи графика в файл необходимо нажать клавишу , затем указать имя файла в формате имя.pcx, где имя должно удовлетворять стандартному соглашению DOS;
возможность плавного движения окна по последовательности вперед и назад с шагом 1 (клавиши <стрелка вправо> и <стрелка влево>) и 10 (клавиши
и
);; возможность плавного увеличения/уменьшения длины окна с шагом 1 (клавиши <стрелка вверх> и <стрелка вниз>);
вычисление обратного преобразования Фурье с фильтрацией спектра фильтром с прямоугольной характеристикой; для этого нужно после вычисления спектра нажать , переместить стрелками вертикальную черту, указав середину фильтруемого участка и нажать ; после появления числа-координаты черты ввести координаты левого и правого концов фильтра;

Приведем пример сеанса работы с программой analys.exe – спектральный анализ нуклеотидной подпоследовательности ДНК генома митохондрий человека (файл hummtcg.seq), начало – 4470 нуклеотид, длиной N=1042 нуклеотида.
Нужно запустить программу analys.exe. В ответ на приглашение ввести имя файла последовательности – hummtcg.seq и нажать . На предложение изменить кодировку ответить N (нет).

После этого Вы увидите экран, соответствующий рис.2.

Рис.2. Основной экран программы analys.exe

При нажатии клавиши будет выдан запрос о начале окна анализа. Необходимо набрать 4470 и нажать . Потом в ответ на запрос о длине окна ввести, например, 1042 и нажать . После этого программа сосчитает и выведет в нижней половине экрана спектр, соответствующий рис.3.

Рис.3. Спектр участка ДНК генома митохондрий человека, начало – 4470 нуклеотид, длина 1042 нуклеотида

Спектр имеет резкий пик на периоде 3. Полученный результат можно интерпретировать следующим образом: это спектр промодулированного сигнала с частотой несущей, равной 3.

Контрольные вопросы (для допуска к работе).

Какую литературу, относящуюся к спектральному анализу генетических текстов, Вы читали?

Где и как хранится наследственная информация?

Что такое геном, ДНК, РНК, ген, кодон, функциональный участок ДНК, экзон, интрон?

Что такое аминокислотная последовательность?

Какие существуют типы структур ДНК и белков и количественные характеристики их и их частей?

Почему "алфавиты" генетических текстов имеют 4 и 20 символов?

Что такое "УБК"? каковы его основные свойства?

Как получить информацию о генетическом тексте?

Какие существуют потоки генетической информации?

Как подготовить файл для спектрального анализа с помощью программы?

Ориентировочные направления и темы лабораторных работ.

Как выбрать длину последовательности?

Пронаблюдать, как зависит спектр последовательности от ее посимвольной кодировки целыми числами с q =0, 1, 2, 3, 4, …

Что может дать другая кодировка последовательностей: отрицательными и положительными целыми числами, вещественными числами; комплексными числами; кодировка двоек, троек (покодонная), четверок и др.

Как изменится спектр при кодировке последовательности целыми числами по пуринам (A, G) и пиримидинам (U, C)?

Что такое оптимальная кодировка и как ее найти?

Как выбрать начало и длину анализируемой последовательности?

Что дает обратное преобразование полученного спектра?

Что дает обратное преобразование спектра, профильтрованного узкополосным фильтром?

Как с помощью спектрального анализа определить функциональные участки генетических текстов?

Какие методы компьютерной обработки генетических текстов Вы могли бы порекомендовать?

Задание к работе.

Перед выполнением работы необходимо ознакомиться с данным руководством и рекомендованной литературой. Ответить на контрольные вопросы, которые являются допуском к работе.

Ознакомиться с приемами работы с программой analys.exe на примере файла HUMMTCG.SEQ;

Получить у преподавателя файлы с последовательностями и указания к составлению отчета.

Обосновать экспериментально выбор границ и размеров участков для спектрального анализа.

Провести спектральный анализ выбранных преподавателем участков последовательности.

Предложить, обосновать и проверить экспериментально другую кодировку нуклеотидов.

Предложить варианты использования спектральной информации для выбора функциональных участков ДНК и РНК. Провести экспериментальное обоснование методов.

Оформить отчет по результатам работы в соответствии с разделом 11.

Содержание отчета.

Название работы.

Согласованную с преподавателем формулировку задания и дату его получения.

Выбор и обоснование параметров метода решения задачи.

Полученные в ходе исследования результаты и их анализ.

Приложение, содержащее необходимые распечатки и доказательства.

Выводы.

Рекомендуемая литература.

Шредингер Э. Что такое жизнь. М.: Гос. изд-во иностранной литературы, 1947

Ичас. Биологический код. М.: Мир, 1971

Шапвиль Ф., Энни А.-Л. Биосинтез белка. М.: Мир, 1977.

Зенгбуш Л. Молекулярная и клеточная биология (в трех томах). М.: Мир, 1982.

Льюин Б. Гены. М., Мир, 1987.

Кирьянов К.Г., Лебедев О.Л. Почему биологические алфавиты имеют 4 и 20 букв? Биофизика, том 40, вып. 3, 1995, с. 536-538.

GenBank. National Center for Biotechnology Information. National Library of Medicine, National Institutes of Health. 8600 Rockville Pike, Bethesda, MD 20894. 301-496-2475. Rel. 77.0. June 15, 1993.

Марпл - мл., Стэнли Лоренс. Цифровой спектральный анализ и его приложения. М.: Мир, 1990.

Кривошеев В.И. ДПФ и БПФ.

Кирьянов К.Г., Кривошеев В.И. Цифровой спектральный анализ (периодограммный и коррелеграммный методы). Методическое пособие. Нижегородский госуниверситет, 1993.

M. S. Gelfand. Global Methods for the Computer Prediction of Protein-Coding Regions in Nucleotide Sequences (A Review).

Александров А.А., Александров Н.Н., Бородовский М.Ю. и др. Компьютерный анализ генетических текстов. М.: Наука, 1990.

Макеев В.Ю., Франк Г.К., Туманян В.Г. Статистика периодических закономерностей в последовательностях интронов человека М., Наука. Биофизика, том 41, вып. 1., 1996.

Приложения.

Приложение 1. Таблица универсального биологического кода (генетического кода).

I

Классы эквивалентности кодонов в строках таблицы УБК

a_i

Кодируемые аминокислоты

1

UUU

UUC

2

Phe F

2

UUA

UUG

CUU

CUC

CUA

CUG

6

Leu L

3

UCU

UCC

UCA

UCG

AGU

AGC

6

Ser S

4

UAU

UAC

2

Tyr Y

5

UGU

UGC

2

Cys C

6

UGG

1

Trp W

7

CCU

CCC

CCA

CCG

4

Pro P

8

CAU

CAC

2

His H

9

CAA

CAG

2

Gln Q

10

CGU

CGC

CGA

CGG

AGA

AGG

6

Arg R

11

AUU

AUC

AUA

3

Ile I

12

AUG

1

Met M

13

ACU

ACC

ACA

ACG

4

Thr T

14

AAU

AAC

2

Asn N

15

AAA

AAG

2

Lys K

16

GUU

GUC

GUA

GUG

4

Val V

17

GCU

GCC

GCA

GCG

4

Ala A

18

GAU

GAC

2

Asp D

19

GAA

GAG

2

Glu E

20

GGU

GGC

GGA

GGG

4

Gly G

21

UAA

UAG

UGA

3

Stop

Приложение 2. Описание формата базы данных EMBL.
В формате EMBL каждая запись (последовательность и описание) разбита на поля. Поле может состоять из одной или более строк длиной не более 72 символов. Строка всегда начинается с двухсимвольной метки, характеризующей данное поле, после метки идут три пробела. Запись может включать следующие поля:

ID (identifier) идентификатор, краткое описание, тип и длина последовательности;

AC (accession number) регистрационный номер последовательности;

CR (cross reference) ссылки на записи этой или других БД, имеющих отношение к данной последовательности;

DT (date) даты ввода и редактирования записи;

DE (description) описание последовательности;

DR (data reference) ссылка на другие базы данных;

KW (keywords) ключевые слова;

OS (organism species) название организма;

OD (organism description) дополнительная информация об организме, штамме, ткани и т.д.;

OC (organism classification) таксономия организма;

HS (host species) название организма-хозяина вируса, фага, органеллы;

HD (host description) дополнительная информация об организме, штамме, ткани и т.д. для хозяина;

HC (host classification) таксономия организма хозяина;

RN (reference number) номер библиографической ссылки;

RA (reference authors) авторы работы;

RT (reference title) название работы;

RL (reference location) библиографическая ссылка;

CC (comment) дополнительные комментарии для пользователя;

VR (variances) неопределенности, вариации, мутации и т.д.;

FH (feature header) заголовок таблицы особенностей;

FT (feature table) таблица особенностей;

XX пустые строки (вводятся для удобства чтения документа)

SQ (sequence statistics) длина и нуклеотидный состав последовательности;
(пробелы) сама последовательность;

// конец записи.

Приложение 3. Пример записи из базы данных GenBank (сокращенный вариант).

жүктеу/скачать 326.52 Kb.

Достарыңызбен бөлісу:

1 2 3

Методическое пособие и описание лабораторной работы (препринт) Составители: д т. н. Кирьянов К. Г. аспирант Семенчуков И. В

Код 1