利用已知 DNA 序列查找对应蛋白质

这是生物信息学的假期作业，利用已知 DNA 序列查找对应蛋白质。

查找下面序列对应什么基因，编码的什么蛋白，并进行蛋白质的物理性质（分子质量、氨基酸组成、等电点pi）、二级结构、结构域、疏水性、信号肽、跨膜结构及亚细胞定位分析。截图并作简要陈述。

序列如下

nTAAACGTTTCCCTTATCTCTCTCTCTCTCTCCACTCCAATGGGGACTCTCACCAGCGTCGCTTTTGCCGCTGCCGTTAACATTAGATTCCGATCATTTCACCGGGAAAACATTAAGACAACAATTACAACTCTGCCCAAATGGCAAAAGAGACTCTGTTTCTCTTCTACAGAGGATTCTCATAGATTTAGGATTGCAAAGTGTTTAGGCAATGACGAAAACAGTAACAGAGACGACAGTATCGGAGAAAACGGAGAAACCCACAAGTCTTCGGTTGTTAAAACGGCAACGTTTGAAGAAGAAGATGAAGAGACAAGTAAGAGTAGCTCTACTACTAGCAGCAGCAACGAGTTCGGTTCCGACAAGACTTCAATGCCATCAACTATTGATCCAACATATAGTAGCTTCCAAATAGATTCGTTTAAGCTAATGGAGCTTCTTGGACCAGAGAAAGTAGATCCTGCAGATGTCAAGTTAATAAAGGACAAACTTTTCGGTTATTCGACATTTTGGGTGACGAAAGAAGAGCCATTTGGGGACCTTGGGGAAGGAATTCTCTTTCTTGGGAACTTGAGAGGAAAGAAAGAAGATGTTTTTGCAAAACTTCAGAGAAAACTAGTTGAAGTTGCTAGTGATAAATATAATTTATTCATGATTGAGGAGCCTAACTCAGAAGGACCTGATCCTCGCGGTGGTGCTCGTGTTAGCTTTGGTTTGCTTCGTAAAGAAGTTTCGGAGCCTGGACCAACTACACTCTGGCAGTATGTGATTGCTTTAATATTGTTTCTTTTGACTATTGGTTCCTCTGTGGAGTTAGGAATTGCTTCTCAGATTAACCGCTTACCTCCTGAGGTGGTAAAGTATTTCACCGATCCAAATGCTGTTGAACCACCTGATATGGAGCTGCTGTATCCATTTGTAGATGCTGCATTGCCTTTAGCTTATGGTGTATTGGGAATTCTTTTGTTTCATGAATTAGGGCACTTTCTTGCTGCAGTTCCAAAGAAAGTTAAGCTTAGCATTCCATACTTCATTCCAAACATTACACTCGGCAGCTTTGGGGCAATCACACAGTTTAAGTCGATTCTTCCTGACCGGAGTACAAAAGTTGACATTTCGCTAGCTGGTCCATTTGCTGGAGCTGCACTCTCAGTTTCCATGTTTGCTGTTGGTCTGTTCCTATCTACAGAACCAGATGCAGCTAACGACCTGGTCCAGGTTCCCAGCATGTTATTTCAAGGTTCATTACTTCTTGGACTCATCAGCAGAGCAACTCTGGGATATGCAGCTTTGCATGCTGCAACAGTTTCAATCCACCCACTTGTAATTGCTGGATGGTGTGGTTTAACAACAACAGCATTTAATATGCTTCCAGTGGGATGTTTGGATGGAGGAAGAGCTGTACAGGGAGCATTCGGGAAAAATGCATTGGTTACATTTGGTTTGTCAACCTATGTAATGCTTGGACTCAGAGTGCTCGGTGGCCCTTTGGCACTTCCTTGGGGACTCTACGTATTAATCTGCCAGAGAACACCTGAAAAACCGTGTCTAAACGACGTGACCGAGGTTGGAACGTGGAGGAAGGCCCTTGTAGGGATTGCACTAATCCTGGTGGTTTTGACACTCCTGCCTGTATGGGACGAACTCGCAGAAGAAGTAGGCATAGGGCTTGTAACCACATTTTGATGTCATCTTCCGTCTTTGAGCAGACGTTGTAGTTAGGGCCAATCCGAGACACATTTTTTTGTTTTGGCAATATTTAGATTGCCAGATATAATGAGCCATGTATGTACACTAGTGAAAAAGTATTTATATGTAATTACTTAAATTCATTCTTCAATTATTACACTAATTACTTTTT

1. 找到对应基因

进入NCBI：https://www.ncbi.nlm.nih.gov/

点击右侧BLAST，选中blastx，将序列导入搜索框

得到以下结果

选择匹配度最高的比对序列，得到：https://www.ncbi.nlm.nih.gov/protein/NP_198372.1?report=genbank&log$=prottop&blast_rank=2&RID=AKTHH8E5014

FASTA，以获得蛋白质序列:https://www.ncbi.nlm.nih.gov/protein/NP_198372.1?report=fasta

Peptidase M50 family protein [Arabidopsis thaliana]
NCBI Reference Sequence: NP_198372.1
GenPept Identical Proteins Graphics
NP_198372.1 Peptidase M50 family protein [Arabidopsis thaliana]
MGTLTSVAFAAAVNIRFRSFHRENIKTTITTLPKWQKRLCFSSTEDSHRFRIAKCLGNDENSNRDDSIGE
NGETHKSSVVKTATFEEEDEETSKSSSTTSSSNEFGSDKTSMPSTIDPTYSSFQIDSFKLMELLGPEKVD
PADVKLIKDKLFGYSTFWVTKEEPFGDLGEGILFLGNLRGKKEDVFAKLQRKLVEVASDKYNLFMIEEPN
SEGPDPRGGARVSFGLLRKEVSEPGPTTLWQYVIALILFLLTIGSSVELGIASQINRLPPEVVKYFTDPN
AVEPPDMELLYPFVDAALPLAYGVLGILLFHELGHFLAAVPKKVKLSIPYFIPNITLGSFGAITQFKSIL
PDRSTKVDISLAGPFAGAALSVSMFAVGLFLSTEPDAANDLVQVPSMLFQGSLLLGLISRATLGYAALHA
ATVSIHPLVIAGWCGLTTTAFNMLPVGCLDGGRAVQGAFGKNALVTFGLSTYVMLGLRVLGGPLALPWGL
YVLICQRTPEKPCLNDVTEVGTWRKALVGIALILVVLTLLPVWDELAEEVGIGLVTTF

2.一级结构预测

氨基酸

利用 ProtParam工具将获得的蛋白质序列导入搜索框

得到：

氨基酸数：548
分子量：59500.72
等电点理论值：5.32

氨基酸组成：

	分子数	占比
Ala (A)	40	7.3%
Arg (R)	19	3.5%
Asn (N)	17	3.1%
Asp(D)	25	4.6%
Cys (C)	6	1.1%
Gln (Q)	10	1.8%
Glu (E)	34	6.2%
Gly (G)	46	8.4%
His (H)	7	1.3%
Ile (I)	29	5.3%
Leu (L)	71	13.0%
Lys (K)	29	5.3%
Met (M)	9	1.6%
Phe (F)	32	5.8%
Pro (P)	32	5.8%
Ser (S)	43	7.8%
Thr (T)	39	7.1%
Trp (W)	7	1.3%
Tyr (Y)	11	2.0%
Val (V)	42	7.7%
Pyl (O)	0	0.0%
Sec (U)	0	0.0%
(B)	0	0.0%
(Z)	0	0.0%
(X)	0	0.0%

亲疏水性

利用ProtScale：https://web.expasy.org/protscale

得到疏水性：

图形的高峰值（正值）的区域表示疏水的区域，而负值的“低谷”区域是亲水区域。

结构域

利用SMART:http://smart.embl-heidelberg.de/

得到该蛋白长度为548aa

跨膜结构

利用TMpred：http://www.cbs.dtu.dk/services/TMHMM/

亚细胞定位

利用 TargetP： http://www.cbs.dtu.dk/services/TargetP/

3.二级结构预测

利用以下工具

http://npsa-pbil.ibcp.fr/cgi-bin/npsa_automat.pl?page=npsa_gor4.html

得到结构：

α螺旋 (Hh)	168	30.66%
3转角螺旋(Gg)	0	0.00%
Pi helix (Ii)	0	0.00%
β折叠 (Bb)	0	0.00%
Extended strand (Ee)	93	16.97%
β转角 (Tt)	0	0.00%
Bend region (Ss)	0	0.00%
无规卷曲 (Cc)	287	52.37%
Ambiguous states (?)	0	0.00%
Other states	0	0.00%

还有这个，就不演示了

http://www.cmpharm.ucsf.edu/~nomi/nnpredict.html

4. 三级结构预测

三级结构是蛋白质结构预测的最终目的。由于蛋白质结构尤其是高级结构决定蛋白质的功能, 因此要充分研究蛋白质的功能, 就要把结构研究清楚。

三级结构预测方法

同源模建
折叠识别( fold recognition)
从头预测(abinitioprediction)
CASP (predictioncenter.llnl.gov/ )

利用SWISS-Model：https://swissmodel.expasy.org/

获得3D建模（仅保留14天）：https://swissmodel.expasy.org/interactive/XsENzd/models/

以及报告：https://swissmodel.expasy.org/interactive/XsENzd/models/report.html

然而这个模型的匹配度只有24.39%，弃用

利用phyre2：http://www.sbg.bio.ic.ac.uk/phyre2

获得3D建模（仅保留30天）：http://www.sbg.bio.ic.ac.uk/phyre2/phyre2_output/a01a12147bd10cb3/summary.html

99%的匹配度，可行。

5. 结论

这段序列来源自肽酶M50家族蛋白，是从拟南芥中提取出来的。

本文作者：mikusa
本文链接：https://www.himiku.com/archives/find-the-corresponding-protein-using-known-DNA-sequences.html
版权声明：所有文章除特别声明外均系本人自主创作，转载及引用请联系作者，并注明出处（作者、原文链接等）。