Результат работы ORF Finder.
Prevotella intermedia: ORF Finder
|
|
начало
|
конец
|
длина
|
цепь
|
описание
|
320
|
703
|
384
|
+
|
альдолаза дигидронеоптерина
ref|ZP_07322565.1| dihydroneopterin aldolase [Prevotella disiens FB035-09AN]
|
712
|
1019
|
309
|
+
|
N-ацетилмурамил-L-аланин амидаза
ref|ZP_05858616.1| N-acetylmuramoyl-L-alanine amidase [Prevotella veroralis F0319]
|
82
|
300
|
219
|
+
|
рибонуклеозид-дифосфатная редуктаза, аденозил-кобаламин-зависимая
ref|ZP_07322472.1| ribonucleoside-diphosphate reductase, adenosylcobalamin-dependent
[Prevotella disiens FB035-09AN]
?
выравнивание только с 794 по 865 аминокислотный остаток
|
332
|
442
|
111
|
-
|
-----
|
1
|
105
|
105
|
-
|
-----
|
1)ref|ZP_07322565.1| dihydroneopterin aldolase [Prevotella disiens FB035-09AN]
длина белка – 125 аминокислот
MELKSSYIYIKGARFRACIGVSELEREVGNDYVADLRLRYHIGKAMLSDDVNDTISYADV 60
M+L+SSYIYIKG + A IGVSELER+VGNDYV +LRLRY+I KAMLSDDV DT++YA+V
MQLESSYIYIKGIKLHAFIGVSELERKVGNDYVVNLRLRYNIEKAMLSDDVADTLNYAEV 60
YDIVKETMQQPAKLLEYVAHRIAERLEQAFPDIEAIDLCLTKLNPPMGADCNGAGVELHL
Y+++K+ M P KLLE+ AH I L + FP IE I L LTKLNPPMGADC GAGVELH+
YEVLKKVMLTPVKLLEHAAHNIEVELGKQFPQIEEIHLQLTKLNPPMGADCYGAGVELHV
INDKT 125
IN+K+
INEKS 125
2)ref|ZP_05858616.1| N-acetylmuramoyl-L-alanine amidase [Prevotella veroralis F0319]
длина белка – 89 аминокислот
MGKRISLFLIMFCLFALASVSAKDKFTVVIDPGHGGKDVGAVGAISNEKSINLNIALALG 74
M K+I+LF++ F LF S +A +FT+VID GHGG D GA+GAIS EK INLN+ALA G
MFKKITLFIVFFVLFVGTSWAANGRFTLVIDAGHGGHDAGALGAISKEKDINLNVALAFG 60
NLIERNLSDVRVIYTRKTDVFISLKGRAE 103
+E+NL DV+VIYTRKTDVFI L RA+
RYVEQNLPDVQVIYTRKTDVFIPLHQRAD 89
3)ref|ZP_07322472.1| ribonucleoside-diphosphate reductase, adenosylcobalamin-dependent
[Prevotella disiens FB035-09AN]
выравнивание произошло только с 794 по 865 аминокислотный остатки
Результат работы GeneMark.hmm 2.4
начало
|
конец
|
длина
|
цепь
|
<1
|
300
|
300
|
+
|
320
|
703
|
384
|
+
|
718
|
>1020
|
303
|
+
|
начало
|
конец
|
цепь
|
тип
|
508
|
337
|
-
|
конечный
|
4095
|
4042
|
-
|
внутренний
|
5281
|
5170
|
-
|
внутренний
|
5610
|
5493
|
-
|
внутренний
|
17866
|
17820
|
-
|
внутренний
|
23926
|
23740
|
-
|
начальный
|
Кассетные интроны, десу.
http://genome.ucsc.edu/cgi-bin/hgc?hgsid=180410463&g=htcCdnaAli&i=BM563208&c=chr5&l=175819443&r=175843653&o=175819628&aliTable=intronEst&table=intronEst
Тут он есть
tcctcccatc agagtgcata ctgttattta gcccatttta tgacaaagaa 175825347
agtggctggc acacgctttc ttgagtcttc tgctttgggg gtatcaaaac 175825297
ctataactgg gccagaggca atgatcaggc acagagaggg tgagtaactt 175825247
gcccgcagtc acacaggtgg cggagtgttg ctggcagagg gaacagcaag 175825197
tgcaaagata ggtgtagtca ccagagacag tgggtatgag gttgtttgag 175825147
gctgagttat ccagacatga gtgggtcccc agcaggggca gcagagacag 175825097
cggggcaggt gtgctggctg gatagactgc tgcgtgtttg tgttctagGA 175825047
GGCCAACGGT CCTGCTGATG GCTACGCAGC CATTGCCCAG GCTGACAGGC 175824997
TGACCCAGGA GCCTGAGAGC ATCCGCAAGT GGCGAGAGGA GCAGAGGAAA 175824947
CGGCTGCAAG AGCTGGgtga gggcggggct gaggcggggt tggctgggtg 175824897
ggctgtgtgt ggggtggagt gtggggagtc ctcggagtgc atgggatgct 175824847
gcatgcctta atgtgggact gggccggtgc ggccctgtgg ctgcctggca 175824797
ggggccaggg gaggagcgcg gccgggcctg tgcatcccag ctggaaagca 175824747
gccactcatt ctcttgtggg gtcctagATG CTGCATCTAA GGTCACGGAA 175824697
CAGGAATGGC GGGAGAAGGC CAAGAAGGAC CTGGAGGAGT GGAACCAGCG 175824647
CCAGAGTGAA CAAGTAGAGA AGAACAAGAT CAACAACCGg tgagagggct 175824597
gtagggacat gagggggcca tggggacatg aggggggctg tggggacatg 175824547
agggggccgt ggggacatga gggggccatg gggacatgaa ggggtgggga 175824497
catgagggag ctgtggggac atgagggggc cgtggggaca tgagacgggc 175824447
tgtggggaca tgagggagct gtggggacat gagaggggct gtggggacat 175824397
gagagggagc tgtggggaca tgagagggag ctgtggggac atgagagggg 175824347
ctgtggggac atgagagggg ctatggggac atgagagggg ctgtggggac 175824297
atgactgaac actgcccagt gctccctgcc tttgaggctc tgtccttcac 175824247
ggtacaaggt cttccaggaa gggaaaggcc tgttctggga agctaccctt 175824197
http://genome.ucsc.edu/cgi-bin/hgc?hgsid=180410463&g=htcCdnaAli&i=BQ637226&c=chr5&l=175819443&r=175843653&o=175819630&aliTable=intronEst&table=intronEst
А тут его нет
tgggattaca ggcatgcacc accacgcctg gctaattttt tgtattttta 175825549
gtagagtcgg gatttctcca tgttggtcag gctggtcttg aactcccaac 175825499
ctcaggtgat ttgccgcctc ggcctcccaa agtgttggga ttacaggtgt 175825449
gagccactgc gcccgacatt ctttataatt tttaactcat ttcatcctta 175825399
tgtcctccca tcagagtgca tactgttatt tagcccattt tatgacaaag 175825349
aaagtggctg gcacacgctt tcttgagtct tctgctttgg gggtatcaaa 175825299
acctataact gggccagagg caatgatcag gcacagagag ggtgagtaac 175825249
ttgcccgcag tcacacaggt ggcggagtgt tgctggcaga gggaacagca 175825199
agtgcaaaga taggtgtagt caccagagac agtgggtatg aggttgtttg 175825149
aggctgagtt atccagacat gagtgggtcc ccagcagggg cagcagagac 175825099
agcggggcag gtgtgctggc tggatagact gctgcgtgtt tgtgttctag 175825049
GAGGCCAACG GTCCTGCTGA TGGCTACGCA GCCATTGCCC AGGCTGACAG 175824999
GCTGACCCAG GAGCCTGAGA GCATCCGCAA GTGGCGAGAG GAGCAGAGGA 175824949
AACGGCTGCA AGAGCTGGgt gagggcgggg ctgaggcggg gttggctggg 175824899
tgggctgtgt gtggggtgga gtgtggggag tcctcggagt gcatgggatg 175824849
ctgcatgcct taatgtggga ctgggccggt gcggccctgt ggctgcctgg 175824799
caggggccag gggaggagcg cggccgggcc tgtgcatccc agctggaaag 175824749
cagccactca ttctcttgtg gggtcctagA TGCTGCATCT AAGGTCACGG 175824699
AACAGGAATG GCGGGAGAAG gccaagaagg acctggagga gtggaaccag 175824649
cgccagagtg aacaagtaga gaagaacaag atcaacaacc ggtgagaggg 175824599
ctgtagggac atgagggggc catggggaca tgaggggggc tgtggggaca 175824549
tgagggggcc gtggggacat gagggggcca tggggacatg aaggggtggg 175824499
gacatgaggg agctgtgggg acatgagggg gccgtgggga catgagacgg 175824449
gctgtgggga catgagggag ctgtggggac atgagagggg ctgtggggac 175824399
atgagaggga gctgtgggga catgagaggg agctgtgggg acatgagagg 175824349
ggctgtgggg acatgagagg ggctatgggg acatgagagg ggctgtgggg 175824299
acatgactga acactgccca gtgctccctg cctttgaggc tctgtccttc 175824249
Blastx смог найти два возможных гена, но один из них находится на границе последовательности — выравнивание по первому нуклеотиду начинается с 231 аминокислоты. Если это место действительно является геном данного белка, то его начало просто осталось за пределами выравнивания.
ref|NP_194923.1| CYP82C3; electron carrier/ heme binding / iron ion binding /
monooxygenase/ oxygen binding [Arabidopsis thaliana]
Координаты по белку
|
Координаты по ДНК
|
QQ
|
5
|
13581
|
1
|
304
|
14204
|
|
|
|
|
305
|
14664
|
0,99
|
512
|
15599
|
|
В данном выравнивании blastx предложил для каждого из экзонов по два варианта координат по белку, причем разница в выравниваниях всего 1%. Мною были выбраны те два экзона, у которых больший процент совпадений, хотя, теоретически, оба выравнивания хорошие.
Score = 269 bits (688), Expect = 8e-71
Identities = 133/209 (64%), Positives = 170/209 (82%), Gaps = 3/209 (1%)
Frame = -1
Query 14204 LILAGSDTTMVTLTWALSLLLNNPRVLKRAQDELDMHVGKDRPLEESDISNLVYLQSIVK 14025
LIL GS+T+ TLTWA+SLLLNN +LK+ QDE+D+HVG+DR +E+SDI NLVYLQ+I+K
Sbjct 306 LILGGSETSPSTLTWAISLLLNNKDMLKKVQDEIDIHVGRDRNVEDSDIKNLVYLQAIIK 365
Query 14024 ETLRLYPPSPIIGLRAALEDCTLSTGYHIPSGTRLMVNAWKIQRDERVWPDPHDFQPERF 13845
ETLRLYP +P++G R A+EDCT++ GY++P GTRL+VN WKIQRD +V+ +P++F+PERF
Sbjct 366 ETLRLYPAAPLLGHREAMEDCTVA-GYNVPCGTRLIVNVWKIQRDPKVYMEPNEFRPERF 424
Query 13844 LTSH-KDMDFRGQTFELIPFGSGRRSCPGTSLALKMVHFILGRFLHSFDVAKPSKLEDVD 13668
+T KD D RGQ FEL+PFGSGRRSCPG SLA++M+H L RFLHSF+V K VD
Sbjct 425 ITGEAKDFDVRGQNFELMPFGSGRRSCPGPSLAMQMLHLGLARFLHSFEV-KTVLDRPVD 483
Query 13667 MTESAGLTNLKATPLEVLVTPRLNSQLYV 13581
M+ES GLT KATPLEVL+ PRL +L+V
Sbjct 484 MSESPGLTITKATPLEVLINPRLKRELFV 512
Score = 254 bits (648), Expect = 4e-66
Identities = 128/208 (62%), Positives = 165/208 (80%), Gaps = 4/208 (1%)
Frame = -2
Query 18010 LVLAGSDTTMITLTWALSLLLNNPRVLKRAQDELDMHVGKDRLLEESDIRNLVYLHAIVK 17831
L+L GS+T+ TLTWA+SLLLNN +LK+ QDE+D+HVG+DR +E+SDI+NLVYL AI+K
Sbjct 306 LILGGSETSPSTLTWAISLLLNNKDMLKKVQDEIDIHVGRDRNVEDSDIKNLVYLQAIIK 365
Query 17830 ETLRLYPPSPII-FRASMEDCTLSTGYHIPAGTRLMVNAWKIQRDERVWPDPHVFKPERF 17654
ETLRLYP +P++ R +MEDCT++ GY++P GTRL+VN WKIQRD +V+ +P+ F+PERF
Sbjct 366 ETLRLYPAAPLLGHREAMEDCTVA-GYNVPCGTRLIVNVWKIQRDPKVYMEPNEFRPERF 424
Query 17653 LTSH-KDMEFRGQTFELIPFGSGRRSCPGVSLALQVVHSALASFLQSFEVSKPSKLEDID 17477
+T KD + RGQ FEL+PFGSGRRSCPG SLA+Q++H LA FL SFEV K +D
Sbjct 425 ITGEAKDFDVRGQNFELMPFGSGRRSCPGPSLAMQMLHLGLARFLHSFEV-KTVLDRPVD 483
Query 17476 MTESTGLTNLKATPLEVLFTPRLDSKLY 17393
M+ES GLT KATPLEVL PRL +L+
Sbjct 484 MSESPGLTITKATPLEVLINPRLKRELF 511
Score = 265 bits (678), Expect = 1e-69
Identities = 143/318 (45%), Positives = 205/318 (65%), Gaps = 24/318 (7%)
Frame = -1
Query 15599 LFTTVCSLVALLSCIYFYQSKKASTHGKRCCTPPQAGGALPVIGHMHLLGG-QQLTHKTL 15423
LF+ S++ + F +SKK + P GA P+IGH+HLLGG +QL ++TL
Sbjct 5 LFSLFVSILVFVFIALFKKSKKP-----KYVKAPAPSGAWPIIGHLHLLGGKEQLLYRTL 59
Query 15422 GAMADKYGPVFSIRLGSHRVLVLNSWEMAKECFTVHDKVFSTRPSIAASKHLGYDFAMFG 15243
G MAD YGP S+RLGS V +S+E+AK+CFTV+DK ++ + AA+KH+GY F
Sbjct 60 GKMADHYGPAMSLRLGSSETFVGSSFEVAKDCFTVNDKALASLMT-AAAKHMGYVF---- 114
Query 15242 FAPYGSYWREMRKIATIELLSSHRIDMLKHIRASEVKTAIRELYKSWLSKGSAETEVFVD 15063
W EMRKIA IELLS+ R+ ML ++R SE+ +++LY W+ KG +E V VD
Sbjct 115 -------WLEMRKIAMIELLSNRRLQMLNNVRVSEISMGVKDLYSLWVKKGGSEP-VMVD 166
Query 15062 MKQWFGDLTHNIALRMVGGRRYFGPN-ADCEE--ADARRCQKVMRDFVYLFGVFVLSDAI 14892
+K W D+ N+ +RMV G+RYFG A+ E +AR+ +K + F +L G+F +SDA
Sbjct 167 LKSWLEDMIANMIMRMVAGKRYFGGGGAESSEHTEEARQWRKGIAKFFHLVGIFTVSDAF 226
Query 14891 PFLGWLDFQGYEKSMKRTAKQLDSLVERWLEEHKQKRLSGGGVIEEQDFMDVMLNILEDG 14712
P LGWLD QG+EK MK+T ++LD ++ERW+E H+Q+R G + DF+DVML++ E G
Sbjct 227 PKLGWLDLQGHEKEMKQTRRELDVILERWIENHRQQRKVSGTKHNDSDFVDVMLSLAEQG 286
Query 14711 KIT--GFDADTINKATCL 14664
K++ +DA+T K TCL
Sbjct 287 KLSHLQYDANTCIKTTCL 304
Score = 258 bits (658), Expect = 3e-67
Identities = 139/318 (44%), Positives = 203/318 (64%), Gaps = 24/318 (7%)
Frame = -3
Query 19752 LFTLVCSLVALLSCIYFYQSKKSSTHRKRVCTAPQAGGALPVIGHMHLLGG-HQLTHKTL 19576
LF+L S++ + F +SKK + AP GA P+IGH+HLLGG QL ++TL
Sbjct 5 LFSLFVSILVFVFIALFKKSKKP-----KYVKAPAPSGAWPIIGHLHLLGGKEQLLYRTL 59
Query 19575 GAMADKYGPVFSIRLGSHSALVLNSWEMARECFTVHDKVFSTRPVLTASKVLGYNYAMFG 19396
G MAD YGP S+RLGS V +S+E+A++CFTV+DK ++ + A+K +GY
Sbjct 60 GKMADHYGPAMSLRLGSSETFVGSSFEVAKDCFTVNDKALASL-MTAAAKHMGY------ 112
Query 19395 FAPYGSYWREIRRIATIELLSSHRIDMLKHIRASEVKTAVRELYKSWLSKGGGETGVLVD 19216
+W E+R+IA IELLS+ R+ ML ++R SE+ V++LY W+ KGG E V+VD
Sbjct 113 -----VFWLEMRKIAMIELLSNRRLQMLNNVRVSEISMGVKDLYSLWVKKGGSEP-VMVD 166
Query 19215 MKQWFGDLTHNIALRMVGGKRFFGPN-ADCEE--AEARRCQKVMRDSAYLFGVFVVSDAL 19045
+K W D+ N+ +RMV GKR+FG A+ E EAR+ +K + +L G+F VSDA
Sbjct 167 LKSWLEDMIANMIMRMVAGKRYFGGGGAESSEHTEEARQWRKGIAKFFHLVGIFTVSDAF 226
Query 19044 PFIGWLDFQGYEKAMKRTAKELDILLGGWLEEHKQKKHLGGGLKKEQDFMDVMLNILEDA 18865
P +GWLD QG+EK MK+T +ELD++L W+E H+Q++ + G + DF+DVML++ E
Sbjct 227 PKLGWLDLQGHEKEMKQTRRELDVILERWIENHRQQRKVSGTKHNDSDFVDVMLSLAEQG 286
Query 18864 KIT--SFDADTINKATCL 18817
K++ +DA+T K TCL
Sbjct 287 KLSHLQYDANTCIKTTCL 304
Достарыңызбен бөлісу: |