Результат работы orf finder



Дата21.06.2016
өлшемі115 Kb.
#152618
Результат работы ORF Finder.

Prevotella intermedia: ORF Finder




начало

конец

длина

цепь

описание

320

703

384

+

альдолаза дигидронеоптерина

ref|ZP_07322565.1| dihydroneopterin aldolase [Prevotella disiens FB035-09AN]

712

1019

309

+

N-ацетилмурамил-L-аланин амидаза

ref|ZP_05858616.1| N-acetylmuramoyl-L-alanine amidase [Prevotella veroralis F0319]

82

300

219

+

рибонуклеозид-дифосфатная редуктаза, аденозил-кобаламин-зависимая

ref|ZP_07322472.1| ribonucleoside-diphosphate reductase, adenosylcobalamin-dependent

[Prevotella disiens FB035-09AN]

?

выравнивание только с 794 по 865 аминокислотный остаток



332

442

111

-

-----

1

105

105

-

-----

1)ref|ZP_07322565.1| dihydroneopterin aldolase [Prevotella disiens FB035-09AN]

длина белка – 125 аминокислот

MELKSSYIYIKGARFRACIGVSELEREVGNDYVADLRLRYHIGKAMLSDDVNDTISYADV 60

M+L+SSYIYIKG + A IGVSELER+VGNDYV +LRLRY+I KAMLSDDV DT++YA+V

MQLESSYIYIKGIKLHAFIGVSELERKVGNDYVVNLRLRYNIEKAMLSDDVADTLNYAEV 60

YDIVKETMQQPAKLLEYVAHRIAERLEQAFPDIEAIDLCLTKLNPPMGADCNGAGVELHL

Y+++K+ M P KLLE+ AH I L + FP IE I L LTKLNPPMGADC GAGVELH+

YEVLKKVMLTPVKLLEHAAHNIEVELGKQFPQIEEIHLQLTKLNPPMGADCYGAGVELHV

INDKT 125

IN+K+


INEKS 125

2)ref|ZP_05858616.1| N-acetylmuramoyl-L-alanine amidase [Prevotella veroralis F0319]

длина белка – 89 аминокислот

MGKRISLFLIMFCLFALASVSAKDKFTVVIDPGHGGKDVGAVGAISNEKSINLNIALALG 74

M K+I+LF++ F LF S +A +FT+VID GHGG D GA+GAIS EK INLN+ALA G

MFKKITLFIVFFVLFVGTSWAANGRFTLVIDAGHGGHDAGALGAISKEKDINLNVALAFG 60

NLIERNLSDVRVIYTRKTDVFISLKGRAE 103

+E+NL DV+VIYTRKTDVFI L RA+

RYVEQNLPDVQVIYTRKTDVFIPLHQRAD 89

3)ref|ZP_07322472.1| ribonucleoside-diphosphate reductase, adenosylcobalamin-dependent

[Prevotella disiens FB035-09AN]

выравнивание произошло только с 794 по 865 аминокислотный остатки

Результат работы GeneMark.hmm 2.4

начало

конец

длина

цепь

<1

300

300

+

320

703

384

+

718

>1020

303

+



начало

конец

цепь

тип

508

337

-

конечный

4095

4042

-

внутренний

5281

5170

-

внутренний

5610

5493

-

внутренний

17866

17820

-

внутренний

23926

23740

-

начальный

Кассетные интроны, десу.

http://genome.ucsc.edu/cgi-bin/hgc?hgsid=180410463&g=htcCdnaAli&i=BM563208&c=chr5&l=175819443&r=175843653&o=175819628&aliTable=intronEst&table=intronEst

Тут он есть

tcctcccatc agagtgcata ctgttattta gcccatttta tgacaaagaa 175825347

agtggctggc acacgctttc ttgagtcttc tgctttgggg gtatcaaaac 175825297

ctataactgg gccagaggca atgatcaggc acagagaggg tgagtaactt 175825247

gcccgcagtc acacaggtgg cggagtgttg ctggcagagg gaacagcaag 175825197

tgcaaagata ggtgtagtca ccagagacag tgggtatgag gttgtttgag 175825147

gctgagttat ccagacatga gtgggtcccc agcaggggca gcagagacag 175825097

cggggcaggt gtgctggctg gatagactgc tgcgtgtttg tgttctagGA 175825047

GGCCAACGGT CCTGCTGATG GCTACGCAGC CATTGCCCAG GCTGACAGGC 175824997

TGACCCAGGA GCCTGAGAGC ATCCGCAAGT GGCGAGAGGA GCAGAGGAAA 175824947

CGGCTGCAAG AGCTGGgtga gggcggggct gaggcggggt tggctgggtg 175824897

ggctgtgtgt ggggtggagt gtggggagtc ctcggagtgc atgggatgct 175824847

gcatgcctta atgtgggact gggccggtgc ggccctgtgg ctgcctggca 175824797

ggggccaggg gaggagcgcg gccgggcctg tgcatcccag ctggaaagca 175824747

gccactcatt ctcttgtggg gtcctagATG CTGCATCTAA GGTCACGGAA 175824697

CAGGAATGGC GGGAGAAGGC CAAGAAGGAC CTGGAGGAGT GGAACCAGCG 175824647

CCAGAGTGAA CAAGTAGAGA AGAACAAGAT CAACAACCGg tgagagggct 175824597

gtagggacat gagggggcca tggggacatg aggggggctg tggggacatg 175824547

agggggccgt ggggacatga gggggccatg gggacatgaa ggggtgggga 175824497

catgagggag ctgtggggac atgagggggc cgtggggaca tgagacgggc 175824447

tgtggggaca tgagggagct gtggggacat gagaggggct gtggggacat 175824397

gagagggagc tgtggggaca tgagagggag ctgtggggac atgagagggg 175824347

ctgtggggac atgagagggg ctatggggac atgagagggg ctgtggggac 175824297

atgactgaac actgcccagt gctccctgcc tttgaggctc tgtccttcac 175824247

ggtacaaggt cttccaggaa gggaaaggcc tgttctggga agctaccctt 175824197

http://genome.ucsc.edu/cgi-bin/hgc?hgsid=180410463&g=htcCdnaAli&i=BQ637226&c=chr5&l=175819443&r=175843653&o=175819630&aliTable=intronEst&table=intronEst

А тут его нет

tgggattaca ggcatgcacc accacgcctg gctaattttt tgtattttta 175825549

gtagagtcgg gatttctcca tgttggtcag gctggtcttg aactcccaac 175825499

ctcaggtgat ttgccgcctc ggcctcccaa agtgttggga ttacaggtgt 175825449

gagccactgc gcccgacatt ctttataatt tttaactcat ttcatcctta 175825399

tgtcctccca tcagagtgca tactgttatt tagcccattt tatgacaaag 175825349

aaagtggctg gcacacgctt tcttgagtct tctgctttgg gggtatcaaa 175825299

acctataact gggccagagg caatgatcag gcacagagag ggtgagtaac 175825249

ttgcccgcag tcacacaggt ggcggagtgt tgctggcaga gggaacagca 175825199

agtgcaaaga taggtgtagt caccagagac agtgggtatg aggttgtttg 175825149

aggctgagtt atccagacat gagtgggtcc ccagcagggg cagcagagac 175825099

agcggggcag gtgtgctggc tggatagact gctgcgtgtt tgtgttctag 175825049

GAGGCCAACG GTCCTGCTGA TGGCTACGCA GCCATTGCCC AGGCTGACAG 175824999

GCTGACCCAG GAGCCTGAGA GCATCCGCAA GTGGCGAGAG GAGCAGAGGA 175824949

AACGGCTGCA AGAGCTGGgt gagggcgggg ctgaggcggg gttggctggg 175824899

tgggctgtgt gtggggtgga gtgtggggag tcctcggagt gcatgggatg 175824849

ctgcatgcct taatgtggga ctgggccggt gcggccctgt ggctgcctgg 175824799

caggggccag gggaggagcg cggccgggcc tgtgcatccc agctggaaag 175824749

cagccactca ttctcttgtg gggtcctagA TGCTGCATCT AAGGTCACGG 175824699

AACAGGAATG GCGGGAGAAG gccaagaagg acctggagga gtggaaccag 175824649



cgccagagtg aacaagtaga gaagaacaag atcaacaacc ggtgagaggg 175824599

ctgtagggac atgagggggc catggggaca tgaggggggc tgtggggaca 175824549

tgagggggcc gtggggacat gagggggcca tggggacatg aaggggtggg 175824499

gacatgaggg agctgtgggg acatgagggg gccgtgggga catgagacgg 175824449

gctgtgggga catgagggag ctgtggggac atgagagggg ctgtggggac 175824399

atgagaggga gctgtgggga catgagaggg agctgtgggg acatgagagg 175824349

ggctgtgggg acatgagagg ggctatgggg acatgagagg ggctgtgggg 175824299

acatgactga acactgccca gtgctccctg cctttgaggc tctgtccttc 175824249

Blastx смог найти два возможных гена, но один из них находится на границе последовательности — выравнивание по первому нуклеотиду начинается с 231 аминокислоты. Если это место действительно является геном данного белка, то его начало просто осталось за пределами выравнивания.

ref|NP_194923.1| CYP82C3; electron carrier/ heme binding / iron ion binding /

monooxygenase/ oxygen binding [Arabidopsis thaliana]



Координаты по белку

Координаты по ДНК

QQ

5

13581

1

304

14204













305

14664

0,99

512

15599




В данном выравнивании blastx предложил для каждого из экзонов по два варианта координат по белку, причем разница в выравниваниях всего 1%. Мною были выбраны те два экзона, у которых больший процент совпадений, хотя, теоретически, оба выравнивания хорошие.

Score = 269 bits (688), Expect = 8e-71

Identities = 133/209 (64%), Positives = 170/209 (82%), Gaps = 3/209 (1%)

Frame = -1

Query 14204 LILAGSDTTMVTLTWALSLLLNNPRVLKRAQDELDMHVGKDRPLEESDISNLVYLQSIVK 14025

LIL GS+T+ TLTWA+SLLLNN +LK+ QDE+D+HVG+DR +E+SDI NLVYLQ+I+K

Sbjct 306 LILGGSETSPSTLTWAISLLLNNKDMLKKVQDEIDIHVGRDRNVEDSDIKNLVYLQAIIK 365

Query 14024 ETLRLYPPSPIIGLRAALEDCTLSTGYHIPSGTRLMVNAWKIQRDERVWPDPHDFQPERF 13845

ETLRLYP +P++G R A+EDCT++ GY++P GTRL+VN WKIQRD +V+ +P++F+PERF

Sbjct 366 ETLRLYPAAPLLGHREAMEDCTVA-GYNVPCGTRLIVNVWKIQRDPKVYMEPNEFRPERF 424

Query 13844 LTSH-KDMDFRGQTFELIPFGSGRRSCPGTSLALKMVHFILGRFLHSFDVAKPSKLEDVD 13668

+T KD D RGQ FEL+PFGSGRRSCPG SLA++M+H L RFLHSF+V K VD

Sbjct 425 ITGEAKDFDVRGQNFELMPFGSGRRSCPGPSLAMQMLHLGLARFLHSFEV-KTVLDRPVD 483

Query 13667 MTESAGLTNLKATPLEVLVTPRLNSQLYV 13581

M+ES GLT KATPLEVL+ PRL +L+V

Sbjct 484 MSESPGLTITKATPLEVLINPRLKRELFV 512

Score = 254 bits (648), Expect = 4e-66

Identities = 128/208 (62%), Positives = 165/208 (80%), Gaps = 4/208 (1%)

Frame = -2

Query 18010 LVLAGSDTTMITLTWALSLLLNNPRVLKRAQDELDMHVGKDRLLEESDIRNLVYLHAIVK 17831

L+L GS+T+ TLTWA+SLLLNN +LK+ QDE+D+HVG+DR +E+SDI+NLVYL AI+K

Sbjct 306 LILGGSETSPSTLTWAISLLLNNKDMLKKVQDEIDIHVGRDRNVEDSDIKNLVYLQAIIK 365

Query 17830 ETLRLYPPSPII-FRASMEDCTLSTGYHIPAGTRLMVNAWKIQRDERVWPDPHVFKPERF 17654

ETLRLYP +P++ R +MEDCT++ GY++P GTRL+VN WKIQRD +V+ +P+ F+PERF

Sbjct 366 ETLRLYPAAPLLGHREAMEDCTVA-GYNVPCGTRLIVNVWKIQRDPKVYMEPNEFRPERF 424

Query 17653 LTSH-KDMEFRGQTFELIPFGSGRRSCPGVSLALQVVHSALASFLQSFEVSKPSKLEDID 17477

+T KD + RGQ FEL+PFGSGRRSCPG SLA+Q++H LA FL SFEV K +D

Sbjct 425 ITGEAKDFDVRGQNFELMPFGSGRRSCPGPSLAMQMLHLGLARFLHSFEV-KTVLDRPVD 483

Query 17476 MTESTGLTNLKATPLEVLFTPRLDSKLY 17393

M+ES GLT KATPLEVL PRL +L+

Sbjct 484 MSESPGLTITKATPLEVLINPRLKRELF 511

Score = 265 bits (678), Expect = 1e-69

Identities = 143/318 (45%), Positives = 205/318 (65%), Gaps = 24/318 (7%)

Frame = -1

Query 15599 LFTTVCSLVALLSCIYFYQSKKASTHGKRCCTPPQAGGALPVIGHMHLLGG-QQLTHKTL 15423

LF+ S++ + F +SKK + P GA P+IGH+HLLGG +QL ++TL

Sbjct 5 LFSLFVSILVFVFIALFKKSKKP-----KYVKAPAPSGAWPIIGHLHLLGGKEQLLYRTL 59

Query 15422 GAMADKYGPVFSIRLGSHRVLVLNSWEMAKECFTVHDKVFSTRPSIAASKHLGYDFAMFG 15243

G MAD YGP S+RLGS V +S+E+AK+CFTV+DK ++ + AA+KH+GY F

Sbjct 60 GKMADHYGPAMSLRLGSSETFVGSSFEVAKDCFTVNDKALASLMT-AAAKHMGYVF---- 114

Query 15242 FAPYGSYWREMRKIATIELLSSHRIDMLKHIRASEVKTAIRELYKSWLSKGSAETEVFVD 15063

W EMRKIA IELLS+ R+ ML ++R SE+ +++LY W+ KG +E V VD

Sbjct 115 -------WLEMRKIAMIELLSNRRLQMLNNVRVSEISMGVKDLYSLWVKKGGSEP-VMVD 166

Query 15062 MKQWFGDLTHNIALRMVGGRRYFGPN-ADCEE--ADARRCQKVMRDFVYLFGVFVLSDAI 14892

+K W D+ N+ +RMV G+RYFG A+ E +AR+ +K + F +L G+F +SDA

Sbjct 167 LKSWLEDMIANMIMRMVAGKRYFGGGGAESSEHTEEARQWRKGIAKFFHLVGIFTVSDAF 226

Query 14891 PFLGWLDFQGYEKSMKRTAKQLDSLVERWLEEHKQKRLSGGGVIEEQDFMDVMLNILEDG 14712

P LGWLD QG+EK MK+T ++LD ++ERW+E H+Q+R G + DF+DVML++ E G

Sbjct 227 PKLGWLDLQGHEKEMKQTRRELDVILERWIENHRQQRKVSGTKHNDSDFVDVMLSLAEQG 286

Query 14711 KIT--GFDADTINKATCL 14664

K++ +DA+T K TCL

Sbjct 287 KLSHLQYDANTCIKTTCL 304

Score = 258 bits (658), Expect = 3e-67

Identities = 139/318 (44%), Positives = 203/318 (64%), Gaps = 24/318 (7%)

Frame = -3

Query 19752 LFTLVCSLVALLSCIYFYQSKKSSTHRKRVCTAPQAGGALPVIGHMHLLGG-HQLTHKTL 19576

LF+L S++ + F +SKK + AP GA P+IGH+HLLGG QL ++TL

Sbjct 5 LFSLFVSILVFVFIALFKKSKKP-----KYVKAPAPSGAWPIIGHLHLLGGKEQLLYRTL 59

Query 19575 GAMADKYGPVFSIRLGSHSALVLNSWEMARECFTVHDKVFSTRPVLTASKVLGYNYAMFG 19396

G MAD YGP S+RLGS V +S+E+A++CFTV+DK ++ + A+K +GY

Sbjct 60 GKMADHYGPAMSLRLGSSETFVGSSFEVAKDCFTVNDKALASL-MTAAAKHMGY------ 112

Query 19395 FAPYGSYWREIRRIATIELLSSHRIDMLKHIRASEVKTAVRELYKSWLSKGGGETGVLVD 19216

+W E+R+IA IELLS+ R+ ML ++R SE+ V++LY W+ KGG E V+VD

Sbjct 113 -----VFWLEMRKIAMIELLSNRRLQMLNNVRVSEISMGVKDLYSLWVKKGGSEP-VMVD 166

Query 19215 MKQWFGDLTHNIALRMVGGKRFFGPN-ADCEE--AEARRCQKVMRDSAYLFGVFVVSDAL 19045

+K W D+ N+ +RMV GKR+FG A+ E EAR+ +K + +L G+F VSDA

Sbjct 167 LKSWLEDMIANMIMRMVAGKRYFGGGGAESSEHTEEARQWRKGIAKFFHLVGIFTVSDAF 226

Query 19044 PFIGWLDFQGYEKAMKRTAKELDILLGGWLEEHKQKKHLGGGLKKEQDFMDVMLNILEDA 18865

P +GWLD QG+EK MK+T +ELD++L W+E H+Q++ + G + DF+DVML++ E

Sbjct 227 PKLGWLDLQGHEKEMKQTRRELDVILERWIENHRQQRKVSGTKHNDSDFVDVMLSLAEQG 286

Query 18864 KIT--SFDADTINKATCL 18817

K++ +DA+T K TCL



Sbjct 287 KLSHLQYDANTCIKTTCL 304

Достарыңызбен бөлісу:




©dereksiz.org 2024
әкімшілігінің қараңыз

    Басты бет