这是生物信息学的假期作业,利用已知 DNA 序列查找对应蛋白质

查找下面序列对应什么基因,编码的什么蛋白,并进行蛋白质的物理性质(分子质量、氨基酸组成、等电点pi)、二级结构、结构域、疏水性、信号肽、跨膜结构及亚细胞定位分析。截图并作简要陈述。

序列如下

nTAAACGTTTCCCTTATCTCTCTCTCTCTCTCCACTCCAATGGGGACTCTCACCAGCGTCGCTTTTGCCGCTGCCGTTAACATTAGATTCCGATCATTTCACCGGGAAAACATTAAGACAACAATTACAACTCTGCCCAAATGGCAAAAGAGACTCTGTTTCTCTTCTACAGAGGATTCTCATAGATTTAGGATTGCAAAGTGTTTAGGCAATGACGAAAACAGTAACAGAGACGACAGTATCGGAGAAAACGGAGAAACCCACAAGTCTTCGGTTGTTAAAACGGCAACGTTTGAAGAAGAAGATGAAGAGACAAGTAAGAGTAGCTCTACTACTAGCAGCAGCAACGAGTTCGGTTCCGACAAGACTTCAATGCCATCAACTATTGATCCAACATATAGTAGCTTCCAAATAGATTCGTTTAAGCTAATGGAGCTTCTTGGACCAGAGAAAGTAGATCCTGCAGATGTCAAGTTAATAAAGGACAAACTTTTCGGTTATTCGACATTTTGGGTGACGAAAGAAGAGCCATTTGGGGACCTTGGGGAAGGAATTCTCTTTCTTGGGAACTTGAGAGGAAAGAAAGAAGATGTTTTTGCAAAACTTCAGAGAAAACTAGTTGAAGTTGCTAGTGATAAATATAATTTATTCATGATTGAGGAGCCTAACTCAGAAGGACCTGATCCTCGCGGTGGTGCTCGTGTTAGCTTTGGTTTGCTTCGTAAAGAAGTTTCGGAGCCTGGACCAACTACACTCTGGCAGTATGTGATTGCTTTAATATTGTTTCTTTTGACTATTGGTTCCTCTGTGGAGTTAGGAATTGCTTCTCAGATTAACCGCTTACCTCCTGAGGTGGTAAAGTATTTCACCGATCCAAATGCTGTTGAACCACCTGATATGGAGCTGCTGTATCCATTTGTAGATGCTGCATTGCCTTTAGCTTATGGTGTATTGGGAATTCTTTTGTTTCATGAATTAGGGCACTTTCTTGCTGCAGTTCCAAAGAAAGTTAAGCTTAGCATTCCATACTTCATTCCAAACATTACACTCGGCAGCTTTGGGGCAATCACACAGTTTAAGTCGATTCTTCCTGACCGGAGTACAAAAGTTGACATTTCGCTAGCTGGTCCATTTGCTGGAGCTGCACTCTCAGTTTCCATGTTTGCTGTTGGTCTGTTCCTATCTACAGAACCAGATGCAGCTAACGACCTGGTCCAGGTTCCCAGCATGTTATTTCAAGGTTCATTACTTCTTGGACTCATCAGCAGAGCAACTCTGGGATATGCAGCTTTGCATGCTGCAACAGTTTCAATCCACCCACTTGTAATTGCTGGATGGTGTGGTTTAACAACAACAGCATTTAATATGCTTCCAGTGGGATGTTTGGATGGAGGAAGAGCTGTACAGGGAGCATTCGGGAAAAATGCATTGGTTACATTTGGTTTGTCAACCTATGTAATGCTTGGACTCAGAGTGCTCGGTGGCCCTTTGGCACTTCCTTGGGGACTCTACGTATTAATCTGCCAGAGAACACCTGAAAAACCGTGTCTAAACGACGTGACCGAGGTTGGAACGTGGAGGAAGGCCCTTGTAGGGATTGCACTAATCCTGGTGGTTTTGACACTCCTGCCTGTATGGGACGAACTCGCAGAAGAAGTAGGCATAGGGCTTGTAACCACATTTTGATGTCATCTTCCGTCTTTGAGCAGACGTTGTAGTTAGGGCCAATCCGAGACACATTTTTTTGTTTTGGCAATATTTAGATTGCCAGATATAATGAGCCATGTATGTACACTAGTGAAAAAGTATTTATATGTAATTACTTAAATTCATTCTTCAATTATTACACTAATTACTTTTT

1. 找到对应基因

进入NCBI:https://www.ncbi.nlm.nih.gov/

点击右侧BLAST,选中blastx,将序列导入搜索框

得到以下结果

选择匹配度最高的比对序列,得到:https://www.ncbi.nlm.nih.gov/protein/NP_198372.1?report=genbank&log$=prottop&blast_rank=2&RID=AKTHH8E5014

FASTA,以获得蛋白质序列:https://www.ncbi.nlm.nih.gov/protein/NP_198372.1?report=fasta

Peptidase M50 family protein [Arabidopsis thaliana]
NCBI Reference Sequence: NP_198372.1

GenPept Identical Proteins Graphics
NP_198372.1 Peptidase M50 family protein [Arabidopsis thaliana]
MGTLTSVAFAAAVNIRFRSFHRENIKTTITTLPKWQKRLCFSSTEDSHRFRIAKCLGNDENSNRDDSIGE
NGETHKSSVVKTATFEEEDEETSKSSSTTSSSNEFGSDKTSMPSTIDPTYSSFQIDSFKLMELLGPEKVD
PADVKLIKDKLFGYSTFWVTKEEPFGDLGEGILFLGNLRGKKEDVFAKLQRKLVEVASDKYNLFMIEEPN
SEGPDPRGGARVSFGLLRKEVSEPGPTTLWQYVIALILFLLTIGSSVELGIASQINRLPPEVVKYFTDPN
AVEPPDMELLYPFVDAALPLAYGVLGILLFHELGHFLAAVPKKVKLSIPYFIPNITLGSFGAITQFKSIL
PDRSTKVDISLAGPFAGAALSVSMFAVGLFLSTEPDAANDLVQVPSMLFQGSLLLGLISRATLGYAALHA
ATVSIHPLVIAGWCGLTTTAFNMLPVGCLDGGRAVQGAFGKNALVTFGLSTYVMLGLRVLGGPLALPWGL
YVLICQRTPEKPCLNDVTEVGTWRKALVGIALILVVLTLLPVWDELAEEVGIGLVTTF

2.一级结构预测

氨基酸

得到:

氨基酸数:548
分子量:59500.72
等电点理论值:5.32

氨基酸组成:

分子数占比
Ala (A)407.3%
Arg (R)193.5%
Asn (N)173.1%
Asp(D)254.6%
Cys (C)61.1%
Gln (Q)101.8%
Glu (E)346.2%
Gly (G)468.4%
His (H)71.3%
Ile (I)295.3%
Leu (L)7113.0%
Lys (K)295.3%
Met (M)91.6%
Phe (F)325.8%
Pro (P)325.8%
Ser (S)437.8%
Thr (T)397.1%
Trp (W)71.3%
Tyr (Y)112.0%
Val (V)427.7%
Pyl (O)00.0%
Sec (U)00.0%
(B)00.0%
(Z)00.0%
(X)00.0%

亲疏水性

利用ProtScale:https://web.expasy.org/protscale

得到疏水性:

图形的高峰值(正值)的区域表示疏水的区域,而负值的“低谷”区域是亲水区域。

结构域

利用SMART:http://smart.embl-heidelberg.de/


得到该蛋白长度为548aa

跨膜结构

利用TMpred:http://www.cbs.dtu.dk/services/TMHMM/

亚细胞定位

利用 TargetP: http://www.cbs.dtu.dk/services/TargetP/

3.二级结构预测

利用以下工具

得到结构:

α螺旋 (Hh)16830.66%
3转角螺旋(Gg)00.00%
Pi helix (Ii)00.00%
β折叠 (Bb)00.00%
Extended strand (Ee)9316.97%
β转角 (Tt)00.00%
Bend region (Ss)00.00%
无规卷曲 (Cc)28752.37%
Ambiguous states (?)00.00%
Other states00.00%

还有这个,就不演示了

4. 三级结构预测

  • 三级结构是蛋白质结构预测的最终目的。由于蛋白质结构尤其是高级结构决定蛋白质的功能, 因此要充分研究蛋白质的功能, 就要把结构研究清楚。

三级结构预测方法

  1. 同源模建
  2. 折叠识别( fold recognition)
  3. 从头预测(abinitioprediction)
  4. CASP (predictioncenter.llnl.gov/ )

获得3D建模(仅保留14天):https://swissmodel.expasy.org/interactive/XsENzd/models/

以及报告:https://swissmodel.expasy.org/interactive/XsENzd/models/report.html

然而这个模型的匹配度只有24.39%,弃用

获得3D建模(仅保留30天):http://www.sbg.bio.ic.ac.uk/phyre2/phyre2_output/a01a12147bd10cb3/summary.html

99%的匹配度,可行。

5. 结论

这段序列来源自肽酶M50家族蛋白,是从拟南芥中提取出来的。