Министерство общего и профессионального образования Российской Федерации
Нижегородский государственный университет им. Н.И. Лобачевского
Радиофизический факультет
Филиал кафедры радиотехники в Нижегородском научно-исследовательском приборостроительном институте "Кварц"
Компьютерный спектральный анализ генетических текстов
Методическое пособие и описание лабораторной работы (препринт)
Составители: д. т. н. Кирьянов К.Г.
аспирант Семенчуков И.В.
Под общей редакцией руководителя филиала д. т. н. Кирьянова К.Г.
Зав. кафедрой, профессор Орлов И.Я.
Нижний Новгород
1998
Содержание
-
Введение.
-
Цель работы.
-
Используемые термины и обозначения.
-
Объект исследования.
-
Краткие теоретические сведения о спектральном анализе последовательностей.
-
Методики применения спектрального анализа в исследовании генетических текстов.
-
Описание алгоритма и программы.
-
Контрольные вопросы (для допуска к работе).
-
Ориентировочные направления лабораторных работ.
-
Задание к работе.
-
Содержание отчета.
-
Рекомендуемая литература.
-
Приложения.
-
Введение.
В работе одного из основоположников квантовой механики Э. Шредингера "Что такое жизнь" высказывалась гипотеза о строении молекулы "наследственного вещества". Как выяснилось впоследствии, это вещество представляет собой нуклеиновые кислоты (ДНК и РНК) – длинные цепочки из сложных химических комплексов четырех типов, называемых нуклеотидами. Это аденин – A, гуанин – G, цитозин – C и тимин – T (урацил – U в РНК). Эти последовательности, названные Шредингером "апериодическими кристаллами" [1], хранятся в хромосомах каждой клетки. ДНК, содержащаяся в наборе хромосом каждого организма, называется геномом. Наследственная информация, хранящаяся в геноме, определяет на этапе белкового синтеза на основе "универсального биологического кода" (УБК) фенотип организма – внешний вид, сходство с родителями и т. п.
Сегодня для многих организмов уже установлен нуклеотидный состав их ДНК или ее частей. Одной из важных задач теории и практики на сегодняшний день является проблема расшифровки нуклеотидных последовательностей – генетических текстов, и их "понимания". Под расшифровкой понимается разбиение всего генома – «слитного» текста – на смысловые участки – «предложения», явно не разделенные «знаками препинания». Эта задача особенно важна в отношении генома человека (состоящего из 3∙109 "букв"), поскольку помогает в решении проблем установления родства, диагностики наследственных заболеваний, определения возраста организма [2–5]. Исследования в рамках данной проблемы проводятся с привлечением различных отраслей науки, способных помочь ее решению. Для изучения генома используется широкий спектр химических, биохимических, физических и биофизических методов исследования.
-
Цель работы.
В данной работе для исследования последовательностей ДНК и РНК применяется метод компьютерного спектрального анализа генетических текстов. В основе этого метода лежит дискретное преобразование Фурье, которое применяется к закодированным числами нуклеотидным цепочкам. Целью работы является исследование спектров различных функциональных участков нуклеотидных последовательностей различных организмов.
Данное методическое пособие и лабораторная работа соответствуют одному из разделов спецкурса "Математические модели в радиофизике: идентификация, диагностика, прогнозирование" для магистров и студентов IV и V курсов радиофизического факультета ННГУ.
-
Используемые термины и обозначения.
Аминокислоты – класс органических кислот, у которых одновременно присутствует аминогруппа (–NH2) и карбоксильная группа (–COOH). Только 20 аминокислот участвуют в образовании белков.
Пептид – молекула из двух аминокислот, соединенных между собой при помощи пептидной связи –CO–NH–. Дальнейшее присоединение аминокислот к такой молекуле приводит к образованию полипептида.
Белки (протеины) представляют собой полипептиды, в молекулу которых входят от 100 до нескольких тысяч аминокислот, с молекулярной массой свыше 10000.
Нуклеотид – молекула, состоящая из одного пуринового или пиримидинового основания, пентозы (сахар с 5 атомами углерода) и остатка фосфата (–OP(O)(OH)2). Является «строительным блоком» нуклеиновых кислот. Наиболее распространены пять нуклеотидов: аденин (A), гуанин (G), тимин (T), цитозин (C) и урацил (U). (Примечание: урацил в РНК – эквивалент тимина в ДНК)
ДНК (дезоксирибонуклеиновая кислота) – носитель генетической информации. В основном находится в хромосомах клеточного ядра. Состоит в основном из A, G, T и C.
РНК (рибонуклеиновая кислота) служит для передачи и реализации генетической информации в большинстве клеточных систем. У многих простейших вирусов ДНК отсутствует; ее функции выполняет РНК. Состоит в основном из A, G, C и U.
Геном – ДНК, содержащаяся в одном наборе хромосом.
Ген – это элементарная единица наследственности, представляющая собой определенную специфическую последовательность нуклеотидов в ДНК.
мРНК (матричная РНК) осуществляет непосредственную передачу кода ДНК (гена) для синтеза клеточных белков.
тРНК (транспортная РНК) – РНК, основной функцией которой является транспорт аминокислот на соответствующий участок мРНК в процессе синтеза белков.
Кодон – единица генетической информации, закодированной в генах. Представляет собой группу из трех нуклеотидов, иначе называемую триплетом. Всего существует 43=64 различных кодонов.
Трансляция – процесс синтеза белка, при котором последовательность нуклеотидов в ДНК переводится в соответствующую последовательность аминокислот.
УБК (универсальный биологический код) – это система расположения нуклеотидов в нити ДНК, обусловливающая соответствующую последовательность расположения аминокислот в белке. Каждой аминокислоте в белке соответствует кодон в ДНК. Все синтезируемые в процессе трансляции белки построены из остатков 20 аминокислот. Какой именно кодон ответственен за включение той или иной аминокислоты, можно определить по таблице приложения 1.
УБК специфичен: каждый кодон кодирует только одну аминокислоту.
УБК называют вырожденным, поскольку 61 кодон кодирует всего 20 аминокислот (остальные 3 кодона является «сигналами» остановки синтеза белка).
УБК неперекрывающийся – кодоны транслируются всегда целиком; для кодирования невозможно использование элементов одного из них в сочетании с элементами соседнего.
УБК обладает также свойством однонаправленности – кодоны информативны только в том случае, если они считываются только в одном направлении – от первого нуклеотида к последующим.
УБК универсален для всех живых существ. Возможны только небольшие видовые изменения, большинство из которых связано с вырожденностью кода.
и - реальная и мнимая части комплексного числа .
N – длина “окна анализа” – участка нуклеотидной последовательности.
w – относительная частота.
T – период.
-
Объект исследования.
Основным объектом исследования в данной работе является ДНК, которая представляет собой цепочку более чем из 108 нуклеотидов. Из курса биологии известно, что ДНК является носителем наследственной информации всех живых организмов, включая человека, и отвечает за развитие (рост и размножение) клеток.
«Строительными блоками» нуклеиновых кислот служат нуклеотиды. Известно по меньшей мере десять их видов, но основным материалом служат всего 4 из них: аденин – A, гуанин – G, тимин – T (в РНК урацил – U) и цитозин – C. Связываясь друг с другом, нуклеотиды образуют очень длинные полинуклеотидные цепочки. Последовательность нуклеотидов в нити ДНК называется первичной структурой (пример – …AGTAACTGAC…).
Установлено, что молекула ДНК представляет собой совокупность генов, регуляторных участков, районов, участвующих в организации генов в хромосомах, а также последовательностей, функции которых еще не известны. Ген – функциональная единица ДНК, содержащая информацию для синтеза полипептида (белка) и РНК. Средняя длина гена около 1000 пар оснований. Сам ген не принимает непосредственного участия в синтезе, а служит лишь матрицей для построения молекулы мРНК (в которую передается код гена), или предшественников рРНК и тРНК (из них после промежуточных реакций получаются готовые рРНК и тРНК).
Существует множество литературы, посвященной строению и свойствам генетического аппарата. Для получения дополнительных сведений об объекте исследования обратитесь к литературе [2-5].
Для того, чтобы проводить исследования ДНК, необходимо знать ее первичную структуру. Процесс определения последовательности нуклеотидов в ДНК называется секвенированием. В настоящее время секвенировано уже очень много ДНК самых разных организмов и проведен их анализ, заключающийся в определении местонахождения генов и других функциональных участков и определении их свойств. Для обеспечения возможности широкого доступа к информации об уже исследованных ДНК были созданы банки данных (БД). В данной работе используется информация из двух таких БД – "GenBank" [6] и "EMBL" (Европейская Молекулярно-Биологическая Лаборатория в Гейдельберге, Германия). Записи в этих банках имеют схожий друг с другом формат. Помимо самой нуклеотидной последовательности, в них содержится подробная информация о ее свойствах и приводятся ссылки на источники данных. Формат базы EMBL приведен в приложении 2.
Рассмотрим нуклеотидную последовательность на примере ДНК генома митохондрий человека (файл HUMMTCG.SEQ, БД GenBank, см. приложение 3). Первые два поля представляют краткую информацию о последовательности (размер, принадлежность к организму). Следующее поле определяет ключи поиска данной записи в БД. В четвертом, пятом и шестом полях приводятся ключевые слова и описание организма – источника ДНК (РНК).
Следующая группа полей представляет собой ссылки на литературу, содержащую информацию о представленной последовательности. Затем идет поле FEATURES, представляющее наибольший интерес. В нем приводится уже известная информация о структуре ДНК (РНК): тип и расположение участков ДНК, и краткие комментарии (антикодон для тРНК, название гена для мРНК и т.п.).
Последним полем является поле ORIGIN, содержащее саму последовательность. Каждая строка содержит порядковый номер первого нуклеотида в строке. Нуклеотидная последовательность в строке размещена шестью группами (по десять нуклеотидов в каждой), разделенными пробелами.
-
Краткие теоретические сведения о спектральном анализе последовательностей.
Рассмотрим произвольный числовой ряд комплексных чисел конечной длины N, . Число N носит название длины окна анализа. В математике [7] доказано, что его можно разложить в ряд Фурье с коэффициентами
(1), где
Здесь – относительная частота, – период.
(2),
(3).
Совокупность коэффициентов Фурье S(k, N) называют спектром ряда x(n).
Если ряд x(n) вещественный, то формулы (2)-(3) приобретают вид:
(2а),
(3а).
В настоящей работе и программной системе используются простейшие способы кодирования нуклеотидов ДНК- и РНК-последовательностей вещественными числами.
Из формул (2а)-(3а) видно, что спектр вещественного ряда симметричен относительно точки k = N / 2, поэтому можно ограничиться интервалом .
Если известен спектр S(k,N) какой-либо последовательности x(n), то вычисление ее элементов производится при помощи обратного преобразования Фурье:
(4).
Более подробную информацию о свойствах спектров смотрите в [7-9].
Приведем пример спектрального анализа периодической последовательности периода 3 длиной N=999: (рис.1).
|
Рис.1. Спектр периодической последовательности с периодом 3 длиной 999
|
Из рисунка 1 видно, что спектр имеет пик при w = 0.33 (T = 3), что говорит о наличии в последовательности только периода 3. Как увидим далее (см. Приложение 4), пик на периоде 3, окруженный "шумовым фоном", есть у спектров ДНК-последовательностей.
-
Методики применения спектрального анализа в исследовании генетических текстов.
Для возможности вычисления спектра какого-либо участка нуклеотидной последовательности определенной длины (в "окне анализа") необходимо представить этот участок числовым рядом вида x(n) – закодировать последовательность. Каждому нуклеотиду в цепочке ДНК нужно сопоставить его значение, являющееся элементом ряда.
Здесь возникает важный вопрос о выборе способа кодирования: разные подходы к кодировке нуклеотидов могут дать совершенно разные картины спектров. При анализе функциональных участков-генов оптимальная кодировка дает сильное отличие при сравнении с другими участками – в картинах спектров генов резко выделяется пик на периоде 3. За примерами графиков спектров генов можно обратиться к приложению 4.
Хорошие результаты при анализе спектров генов получаются, например, при следующих способах кодировки:
-
соответствие более высокого кода нуклеотиду с более высокой молекулярной массой (столбец Код 1 табл. 1);
-
обозначение одним и тем же кодом нуклеотидов одинакового класса соединений; A и G – пурины, U и C – пиримидины (столбец Код 2 табл. 1);
-
обозначение одним и тем же кодом комплементарных нуклеотидов (столбец Код 3 табл. 1);
Таблица 1. Способы кодировки нуклеотидов
|
Нуклеотид
| Код 1 |
Код 2
|
Код 3
|
U
|
0
|
0
|
1
|
C
|
1
|
0
|
0
|
A
|
2
|
1
|
1
|
G
|
3
|
1
|
0
|
При выборе длины последовательности нужно учитывать следующие факты:
-
средняя длина гена, равна примерно 1000 нуклеотидов;
-
у высших организмов ген в ДНК имеет прерывистую структуру: участки гена, называемые экзонами, прерываются интронами – некодирующими участками, удаляемыми в процессе синтеза мРНК;
-
средняя длина участков ДНК, из которых синтезируется тРНК, равна 100 нуклеотидам;
-
средняя длина участков ДНК, из которых синтезируется рРНК, может варьироваться от 200 до 5000 нуклеотидов. Такой широкий диапазон обусловлен существованием различных видов рРНК – существуют молекулы длиной примерно 120, 950÷1900 и 2000÷4800 нуклеотидов.
Полученные спектры могут иметь резко выделяющиеся пики на каких-либо периодах, например, на периоде 3. Для нахождения этого периода необходимо профильтровать полученный спектр узкополосным фильтром так, чтобы в результате фильтрации остался лишь нужный пик, а затем к профильтрованному спектру применить обратное преобразование Фурье.
-
Описание алгоритма и программы.
В настоящей работе для исследования спектров нуклеотидных последовательностей используется специально разработанная для этого программа analys.exe.
Основные возможности программной системы:
-
поддержка файлов форматов EMBL и GenBank – нахождение в файлах и загрузка самой нуклеотидной последовательности; ее длина должна быть не более 20000 нуклеотидов; при загрузке из файла произвольного формата должно быть выполнено требование – начало последовательности должно содержать 10 нуклеотидов подряд без пробелов в одной строке;
-
программа кодирует нуклеотиды целыми положительными числами; при запуске программы имеется возможность изменения таблицы кодировки нуклеотидов; для этого после указания имени загружаемого файла с последовательностью в ответ на запрос об изменении кодировки нужно ответить Y и затем ввести код для каждого нуклеотида, завершая ввод клавишей ;
-
программа позволяет выполнить спектральный анализ подпоследовательности с выбором окна анализа с произвольными началом (но не более, чем длина загруженной последовательности) и длиной (но не более, чем разность между длиной последовательности и координатой начала окна); при нажатии нужно ввести начало окна и нажать , затем ввести длину окна и также нажать ; при смене атрибутов окна нужно сначала нажать , затем > и снова выполнить вышеперечисленные действия;
-
просмотр и запись в файл формата .PCX графика спектра с автомасштабированием по оси Y в фиксированном диапазоне относительных частот (0÷0.5, или периоды 2 ÷ + ∞); для записи графика в файл необходимо нажать клавишу , затем указать имя файла в формате имя.pcx, где имя должно удовлетворять стандартному соглашению DOS;
-
возможность плавного движения окна по последовательности вперед и назад с шагом 1 (клавиши <стрелка вправо> и <стрелка влево>) и 10 (клавиши
и
);; возможность плавного увеличения/уменьшения длины окна с шагом 1 (клавиши <стрелка вверх> и <стрелка вниз>);
-
вычисление обратного преобразования Фурье с фильтрацией спектра фильтром с прямоугольной характеристикой; для этого нужно после вычисления спектра нажать , переместить стрелками вертикальную черту, указав середину фильтруемого участка и нажать ; после появления числа-координаты черты ввести координаты левого и правого концов фильтра;
Приведем пример сеанса работы с программой analys.exe – спектральный анализ нуклеотидной подпоследовательности ДНК генома митохондрий человека (файл hummtcg.seq), начало – 4470 нуклеотид, длиной N=1042 нуклеотида.
Нужно запустить программу analys.exe. В ответ на приглашение ввести имя файла последовательности – hummtcg.seq и нажать . На предложение изменить кодировку ответить N (нет).
После этого Вы увидите экран, соответствующий рис.2.
|
Рис.2. Основной экран программы analys.exe
|
При нажатии клавиши будет выдан запрос о начале окна анализа. Необходимо набрать 4470 и нажать . Потом в ответ на запрос о длине окна ввести, например, 1042 и нажать . После этого программа сосчитает и выведет в нижней половине экрана спектр, соответствующий рис.3.
|
Рис.3. Спектр участка ДНК генома митохондрий человека, начало – 4470 нуклеотид, длина 1042 нуклеотида
|
Спектр имеет резкий пик на периоде 3. Полученный результат можно интерпретировать следующим образом: это спектр промодулированного сигнала с частотой несущей, равной 3.
-
Контрольные вопросы (для допуска к работе).
-
Какую литературу, относящуюся к спектральному анализу генетических текстов, Вы читали?
-
Где и как хранится наследственная информация?
-
Что такое геном, ДНК, РНК, ген, кодон, функциональный участок ДНК, экзон, интрон?
-
Что такое аминокислотная последовательность?
-
Какие существуют типы структур ДНК и белков и количественные характеристики их и их частей?
-
Почему "алфавиты" генетических текстов имеют 4 и 20 символов?
-
Что такое "УБК"? каковы его основные свойства?
-
Как получить информацию о генетическом тексте?
-
Какие существуют потоки генетической информации?
-
Как подготовить файл для спектрального анализа с помощью программы?
-
Ориентировочные направления и темы лабораторных работ.
-
Как выбрать длину последовательности?
-
Пронаблюдать, как зависит спектр последовательности от ее посимвольной кодировки целыми числами с q =0, 1, 2, 3, 4, …
-
Что может дать другая кодировка последовательностей: отрицательными и положительными целыми числами, вещественными числами; комплексными числами; кодировка двоек, троек (покодонная), четверок и др.
-
Как изменится спектр при кодировке последовательности целыми числами по пуринам (A, G) и пиримидинам (U, C)?
-
Что такое оптимальная кодировка и как ее найти?
-
Как выбрать начало и длину анализируемой последовательности?
-
Что дает обратное преобразование полученного спектра?
-
Что дает обратное преобразование спектра, профильтрованного узкополосным фильтром?
-
Как с помощью спектрального анализа определить функциональные участки генетических текстов?
-
Какие методы компьютерной обработки генетических текстов Вы могли бы порекомендовать?
-
Задание к работе.
-
Перед выполнением работы необходимо ознакомиться с данным руководством и рекомендованной литературой. Ответить на контрольные вопросы, которые являются допуском к работе.
-
Ознакомиться с приемами работы с программой analys.exe на примере файла HUMMTCG.SEQ;
-
Получить у преподавателя файлы с последовательностями и указания к составлению отчета.
-
Обосновать экспериментально выбор границ и размеров участков для спектрального анализа.
-
Провести спектральный анализ выбранных преподавателем участков последовательности.
-
Предложить, обосновать и проверить экспериментально другую кодировку нуклеотидов.
-
Предложить варианты использования спектральной информации для выбора функциональных участков ДНК и РНК. Провести экспериментальное обоснование методов.
-
Оформить отчет по результатам работы в соответствии с разделом 11.
-
Содержание отчета.
-
Название работы.
-
Согласованную с преподавателем формулировку задания и дату его получения.
-
Выбор и обоснование параметров метода решения задачи.
-
Полученные в ходе исследования результаты и их анализ.
-
Приложение, содержащее необходимые распечатки и доказательства.
-
Выводы.
-
Рекомендуемая литература.
-
Шредингер Э. Что такое жизнь. М.: Гос. изд-во иностранной литературы, 1947
-
Ичас. Биологический код. М.: Мир, 1971
-
Шапвиль Ф., Энни А.-Л. Биосинтез белка. М.: Мир, 1977.
-
Зенгбуш Л. Молекулярная и клеточная биология (в трех томах). М.: Мир, 1982.
-
Льюин Б. Гены. М., Мир, 1987.
-
Кирьянов К.Г., Лебедев О.Л. Почему биологические алфавиты имеют 4 и 20 букв? Биофизика, том 40, вып. 3, 1995, с. 536-538.
-
GenBank. National Center for Biotechnology Information. National Library of Medicine, National Institutes of Health. 8600 Rockville Pike, Bethesda, MD 20894. 301-496-2475. Rel. 77.0. June 15, 1993.
-
Марпл - мл., Стэнли Лоренс. Цифровой спектральный анализ и его приложения. М.: Мир, 1990.
-
Кривошеев В.И. ДПФ и БПФ.
-
Кирьянов К.Г., Кривошеев В.И. Цифровой спектральный анализ (периодограммный и коррелеграммный методы). Методическое пособие. Нижегородский госуниверситет, 1993.
-
M. S. Gelfand. Global Methods for the Computer Prediction of Protein-Coding Regions in Nucleotide Sequences (A Review).
-
Александров А.А., Александров Н.Н., Бородовский М.Ю. и др. Компьютерный анализ генетических текстов. М.: Наука, 1990.
-
Макеев В.Ю., Франк Г.К., Туманян В.Г. Статистика периодических закономерностей в последовательностях интронов человека М., Наука. Биофизика, том 41, вып. 1., 1996.
-
Приложения.
Приложение 1. Таблица универсального биологического кода (генетического кода).
I
|
Классы эквивалентности кодонов в строках таблицы УБК
|
ai
|
Кодируемые аминокислоты
|
1
|
UUU
|
UUC
|
|
|
|
|
2
|
Phe F
|
2
|
UUA
|
UUG
|
CUU
|
CUC
|
CUA
|
CUG
|
6
|
Leu L
|
3
|
UCU
|
UCC
|
UCA
|
UCG
|
AGU
|
AGC
|
6
|
Ser S
|
4
|
UAU
|
UAC
|
|
|
|
|
2
|
Tyr Y
|
5
|
UGU
|
UGC
|
|
|
|
|
2
|
Cys C
|
6
|
UGG
|
|
|
|
|
|
1
|
Trp W
|
7
|
CCU
|
CCC
|
CCA
|
CCG
|
|
|
4
|
Pro P
|
8
|
CAU
|
CAC
|
|
|
|
|
2
|
His H
|
9
|
CAA
|
CAG
|
|
|
|
|
2
|
Gln Q
|
10
|
CGU
|
CGC
|
CGA
|
CGG
|
AGA
|
AGG
|
6
|
Arg R
|
11
|
AUU
|
AUC
|
AUA
|
|
|
|
3
|
Ile I
|
12
|
AUG
|
|
|
|
|
|
1
|
Met M
|
13
|
ACU
|
ACC
|
ACA
|
ACG
|
|
|
4
|
Thr T
|
14
|
AAU
|
AAC
|
|
|
|
|
2
|
Asn N
|
15
|
AAA
|
AAG
|
|
|
|
|
2
|
Lys K
|
16
|
GUU
|
GUC
|
GUA
|
GUG
|
|
|
4
|
Val V
|
17
|
GCU
|
GCC
|
GCA
|
GCG
|
|
|
4
|
Ala A
|
18
|
GAU
|
GAC
|
|
|
|
|
2
|
Asp D
|
19
|
GAA
|
GAG
|
|
|
|
|
2
|
Glu E
|
20
|
GGU
|
GGC
|
GGA
|
GGG
|
|
|
4
|
Gly G
|
21
|
UAA
|
UAG
|
UGA
|
|
|
|
3
|
Stop
|
Приложение 2. Описание формата базы данных EMBL.
В формате EMBL каждая запись (последовательность и описание) разбита на поля. Поле может состоять из одной или более строк длиной не более 72 символов. Строка всегда начинается с двухсимвольной метки, характеризующей данное поле, после метки идут три пробела. Запись может включать следующие поля:
ID (identifier) идентификатор, краткое описание, тип и длина последовательности;
AC (accession number) регистрационный номер последовательности;
CR (cross reference) ссылки на записи этой или других БД, имеющих отношение к данной последовательности;
DT (date) даты ввода и редактирования записи;
DE (description) описание последовательности;
DR (data reference) ссылка на другие базы данных;
KW (keywords) ключевые слова;
OS (organism species) название организма;
OD (organism description) дополнительная информация об организме, штамме, ткани и т.д.;
OC (organism classification) таксономия организма;
HS (host species) название организма-хозяина вируса, фага, органеллы;
HD (host description) дополнительная информация об организме, штамме, ткани и т.д. для хозяина;
HC (host classification) таксономия организма хозяина;
RN (reference number) номер библиографической ссылки;
RA (reference authors) авторы работы;
RT (reference title) название работы;
RL (reference location) библиографическая ссылка;
CC (comment) дополнительные комментарии для пользователя;
VR (variances) неопределенности, вариации, мутации и т.д.;
FH (feature header) заголовок таблицы особенностей;
FT (feature table) таблица особенностей;
XX пустые строки (вводятся для удобства чтения документа)
SQ (sequence statistics) длина и нуклеотидный состав последовательности;
(пробелы) сама последовательность;
// конец записи.
Приложение 3. Пример записи из базы данных GenBank (сокращенный вариант).
Достарыңызбен бөлісу: |