这是生物信息学的假期作业,利用已知 DNA 序列查找对应蛋白质
。
查找下面序列对应什么基因,编码的什么蛋白,并进行蛋白质的物理性质(分子质量、氨基酸组成、等电点pi)、二级结构、结构域、疏水性、信号肽、跨膜结构及亚细胞定位分析。截图并作简要陈述。
序列如下
nTAAACGTTTCCCTTATCTCTCTCTCTCTCTCCACTCCAATGGGGACTCTCACCAGCGTCGCTTTTGCCGCTGCCGTTAACATTAGATTCCGATCATTTCACCGGGAAAACATTAAGACAACAATTACAACTCTGCCCAAATGGCAAAAGAGACTCTGTTTCTCTTCTACAGAGGATTCTCATAGATTTAGGATTGCAAAGTGTTTAGGCAATGACGAAAACAGTAACAGAGACGACAGTATCGGAGAAAACGGAGAAACCCACAAGTCTTCGGTTGTTAAAACGGCAACGTTTGAAGAAGAAGATGAAGAGACAAGTAAGAGTAGCTCTACTACTAGCAGCAGCAACGAGTTCGGTTCCGACAAGACTTCAATGCCATCAACTATTGATCCAACATATAGTAGCTTCCAAATAGATTCGTTTAAGCTAATGGAGCTTCTTGGACCAGAGAAAGTAGATCCTGCAGATGTCAAGTTAATAAAGGACAAACTTTTCGGTTATTCGACATTTTGGGTGACGAAAGAAGAGCCATTTGGGGACCTTGGGGAAGGAATTCTCTTTCTTGGGAACTTGAGAGGAAAGAAAGAAGATGTTTTTGCAAAACTTCAGAGAAAACTAGTTGAAGTTGCTAGTGATAAATATAATTTATTCATGATTGAGGAGCCTAACTCAGAAGGACCTGATCCTCGCGGTGGTGCTCGTGTTAGCTTTGGTTTGCTTCGTAAAGAAGTTTCGGAGCCTGGACCAACTACACTCTGGCAGTATGTGATTGCTTTAATATTGTTTCTTTTGACTATTGGTTCCTCTGTGGAGTTAGGAATTGCTTCTCAGATTAACCGCTTACCTCCTGAGGTGGTAAAGTATTTCACCGATCCAAATGCTGTTGAACCACCTGATATGGAGCTGCTGTATCCATTTGTAGATGCTGCATTGCCTTTAGCTTATGGTGTATTGGGAATTCTTTTGTTTCATGAATTAGGGCACTTTCTTGCTGCAGTTCCAAAGAAAGTTAAGCTTAGCATTCCATACTTCATTCCAAACATTACACTCGGCAGCTTTGGGGCAATCACACAGTTTAAGTCGATTCTTCCTGACCGGAGTACAAAAGTTGACATTTCGCTAGCTGGTCCATTTGCTGGAGCTGCACTCTCAGTTTCCATGTTTGCTGTTGGTCTGTTCCTATCTACAGAACCAGATGCAGCTAACGACCTGGTCCAGGTTCCCAGCATGTTATTTCAAGGTTCATTACTTCTTGGACTCATCAGCAGAGCAACTCTGGGATATGCAGCTTTGCATGCTGCAACAGTTTCAATCCACCCACTTGTAATTGCTGGATGGTGTGGTTTAACAACAACAGCATTTAATATGCTTCCAGTGGGATGTTTGGATGGAGGAAGAGCTGTACAGGGAGCATTCGGGAAAAATGCATTGGTTACATTTGGTTTGTCAACCTATGTAATGCTTGGACTCAGAGTGCTCGGTGGCCCTTTGGCACTTCCTTGGGGACTCTACGTATTAATCTGCCAGAGAACACCTGAAAAACCGTGTCTAAACGACGTGACCGAGGTTGGAACGTGGAGGAAGGCCCTTGTAGGGATTGCACTAATCCTGGTGGTTTTGACACTCCTGCCTGTATGGGACGAACTCGCAGAAGAAGTAGGCATAGGGCTTGTAACCACATTTTGATGTCATCTTCCGTCTTTGAGCAGACGTTGTAGTTAGGGCCAATCCGAGACACATTTTTTTGTTTTGGCAATATTTAGATTGCCAGATATAATGAGCCATGTATGTACACTAGTGAAAAAGTATTTATATGTAATTACTTAAATTCATTCTTCAATTATTACACTAATTACTTTTT
1. 找到对应基因
进入NCBI:https://www.ncbi.nlm.nih.gov/
点击右侧BLAST
,选中blastx
,将序列导入搜索框
得到以下结果
选择匹配度最高的比对序列,得到:https://www.ncbi.nlm.nih.gov/protein/NP_198372.1?report=genbank&log$=prottop&blast_rank=2&RID=AKTHH8E5014
FASTA,以获得蛋白质序列:https://www.ncbi.nlm.nih.gov/protein/NP_198372.1?report=fasta
Peptidase M50 family protein [Arabidopsis thaliana]
NCBI Reference Sequence: NP_198372.1GenPept Identical Proteins Graphics
NP_198372.1 Peptidase M50 family protein [Arabidopsis thaliana]
MGTLTSVAFAAAVNIRFRSFHRENIKTTITTLPKWQKRLCFSSTEDSHRFRIAKCLGNDENSNRDDSIGE
NGETHKSSVVKTATFEEEDEETSKSSSTTSSSNEFGSDKTSMPSTIDPTYSSFQIDSFKLMELLGPEKVD
PADVKLIKDKLFGYSTFWVTKEEPFGDLGEGILFLGNLRGKKEDVFAKLQRKLVEVASDKYNLFMIEEPN
SEGPDPRGGARVSFGLLRKEVSEPGPTTLWQYVIALILFLLTIGSSVELGIASQINRLPPEVVKYFTDPN
AVEPPDMELLYPFVDAALPLAYGVLGILLFHELGHFLAAVPKKVKLSIPYFIPNITLGSFGAITQFKSIL
PDRSTKVDISLAGPFAGAALSVSMFAVGLFLSTEPDAANDLVQVPSMLFQGSLLLGLISRATLGYAALHA
ATVSIHPLVIAGWCGLTTTAFNMLPVGCLDGGRAVQGAFGKNALVTFGLSTYVMLGLRVLGGPLALPWGL
YVLICQRTPEKPCLNDVTEVGTWRKALVGIALILVVLTLLPVWDELAEEVGIGLVTTF
2.一级结构预测
氨基酸
- 利用 ProtParam工具 将获得的蛋白质序列导入搜索框
得到:
氨基酸数:548
分子量:59500.72
等电点理论值:5.32
氨基酸组成:
分子数 | 占比 | |
---|---|---|
Ala (A) | 40 | 7.3% |
Arg (R) | 19 | 3.5% |
Asn (N) | 17 | 3.1% |
Asp(D) | 25 | 4.6% |
Cys (C) | 6 | 1.1% |
Gln (Q) | 10 | 1.8% |
Glu (E) | 34 | 6.2% |
Gly (G) | 46 | 8.4% |
His (H) | 7 | 1.3% |
Ile (I) | 29 | 5.3% |
Leu (L) | 71 | 13.0% |
Lys (K) | 29 | 5.3% |
Met (M) | 9 | 1.6% |
Phe (F) | 32 | 5.8% |
Pro (P) | 32 | 5.8% |
Ser (S) | 43 | 7.8% |
Thr (T) | 39 | 7.1% |
Trp (W) | 7 | 1.3% |
Tyr (Y) | 11 | 2.0% |
Val (V) | 42 | 7.7% |
Pyl (O) | 0 | 0.0% |
Sec (U) | 0 | 0.0% |
(B) | 0 | 0.0% |
(Z) | 0 | 0.0% |
(X) | 0 | 0.0% |
亲疏水性
利用ProtScale:https://web.expasy.org/protscale
得到疏水性:
图形的高峰值(正值)的区域表示疏水的区域,而负值的“低谷”区域是亲水区域。
结构域
利用SMART:http://smart.embl-heidelberg.de/
得到该蛋白长度为548aa
跨膜结构
利用TMpred:http://www.cbs.dtu.dk/services/TMHMM/
亚细胞定位
利用 TargetP: http://www.cbs.dtu.dk/services/TargetP/
3.二级结构预测
利用以下工具
得到结构:
α螺旋 (Hh) | 168 | 30.66% |
3转角螺旋(Gg) | 0 | 0.00% |
Pi helix (Ii) | 0 | 0.00% |
β折叠 (Bb) | 0 | 0.00% |
Extended strand (Ee) | 93 | 16.97% |
β转角 (Tt) | 0 | 0.00% |
Bend region (Ss) | 0 | 0.00% |
无规卷曲 (Cc) | 287 | 52.37% |
Ambiguous states (?) | 0 | 0.00% |
Other states | 0 | 0.00% |
还有这个,就不演示了
4. 三级结构预测
- 三级结构是蛋白质结构预测的最终目的。由于蛋白质结构尤其是高级结构决定蛋白质的功能, 因此要充分研究蛋白质的功能, 就要把结构研究清楚。
三级结构预测方法
- 同源模建
- 折叠识别( fold recognition)
- 从头预测(abinitioprediction)
- CASP (predictioncenter.llnl.gov/ )
- 利用SWISS-Model:https://swissmodel.expasy.org/
获得3D建模(仅保留14天):https://swissmodel.expasy.org/interactive/XsENzd/models/
以及报告:https://swissmodel.expasy.org/interactive/XsENzd/models/report.html
然而这个模型的匹配度只有24.39%,弃用
- 利用phyre2:http://www.sbg.bio.ic.ac.uk/phyre2
获得3D建模(仅保留30天):http://www.sbg.bio.ic.ac.uk/phyre2/phyre2_output/a01a12147bd10cb3/summary.html
99%的匹配度,可行。
5. 结论
这段序列来源自肽酶M50家族蛋白
,是从拟南芥中提取出来的。
本文作者:mikusa
本文链接:https://www.himiku.com/archives/find-the-corresponding-protein-using-known-DNA-sequences.html
版权声明:所有文章除特别声明外均系本人自主创作,转载及引用请联系作者,并注明出处(作者、原文链接等)。
你好,可以问你点问题吗?呜呜呜
但说无妨,可我不一定会
好耶,是生物狗(来自生化环材的怨念
要哭粗来了 (´இ皿இ`)
要不看开头写的生物作业还以为学医的呢。
不过还是感觉很厉害,至少自己看不懂
哈哈只是入门的东西 φ( ̄∇ ̄o)
话说我之前在微基因里的基因检测是能导出数据的,不知道能不能用在这里,噗!
还有给序列?
太...高深了
你可以试试用 Python 写个自动化工具,自动查询生成报告。以后这种作业就简单了。
我个学生物的 哪会Python(´இ皿இ`)
我的梯子可以借给你。要爬吗?
不是梯子的问题,你能访问?
自然是进不去的 要不你试试这个网站
http://bioinf.cs.ucl.ac.uk/psipred_new/
这是啥