之前「构建系统发育树」一文中已经大致介绍了 MEGA 的使用方法,但有些地方没说清楚,这里就现有资源再解释下。有纰漏的地方还请多多指正。
收集同源序列
使用 BLAST 收集同源序列可以参考「这里」,只是这种收集方法到的序列包含多个物种。如果需要和特定物种进行同源比对,如常用的模式植物拟南芥、水稻,在搜索过程中会有些问题。下面以这两个物种为例,给出我的解决方法。
1. 拟南芥
获取拟南芥基因序列,主要用到两个网站:
TAIR(拟南芥信息资源)提供大量拟南芥的数据,包括完整的基因组序列、基因结构,基因产物信息,基因表达,DNA和种子库,基因组图,遗传和物理标记,出版物以及有关拟南芥研究社区的信息。
PLANT TRANSCRIPTION FACTOR DATABASE(植物转录因子数据库),简称 PlnTFDB,目前包含2657个蛋白质模型,其中拟南芥的蛋白质序列是从 TAIR 上整理的。
在 PlnTFDB 中可以获取常见的序列。如下图,依次点击“Eudicot”、“Arabidopsis thaliana”,进入拟南芥数据库。
点击表格中列出的转录因子家族,如“zf-HD”。
点击“Check all”选中所有序列,再点击“Retrieve”就可以直接下载.fasta
格式的序列文件。
如果表格中没有自己想要的基因家族,那么可以用 TAIR 进行 BLAST 搜索。
进入 TAIR 主页,在搜索框中填入基因家族名称,选择蛋白质数据库,点击搜索。
以我的 HSP60 为例,搜索后得到以下结果。选择最接近所需基因,比如最后一个。
点击“Send to BLAST”,在下一个页面点击“Run BLAST”。因为不知道这些参数有啥作用,直接用默认参数进行 BLAST 搜索。
随后就得到了带有 TAIR 登陆号的基因序列列表。
排除掉 E 值大于0.01的部分,保存剩下的部分。因为这是基因的登陆号,所以还要进一步检索对应的蛋白质。
将上述登陆号整理好,利用 TAIR 批量下载 fasta 文件。
打开 TAIR 的批量检索页面:https://www.arabidopsis.org/tools/bulk/index.jsp ,点击 Sequences,开始检索。依照下图填入登陆号,设置参数,获得 fasta 文件。
2.水稻
获取水稻基因序列,主要用到两个网站:
- Rice Genome Annotation Project(水稻基因组注释项目):http://rice.plantbiology.msu.edu/
- 国家水稻数据中心:http://www.ricedata.cn/gene/
因为先前 HMMER 里已经获取到了 Pfam 码,那么搜索水稻的序列就简单多了。
在 Rice Genome Annotation Project 首页找到 Protein Domain Search,在 Pfam profile 搜索框里填入Pfam 码,点击搜索。
这里就不再贴图了,把搜索结果中“Model”那一列里的登陆号整理出来。
打开水稻基因组注释项目的批量下载页:http://rice.plantbiology.msu.edu/downloads_gad.shtml ,依次选择数据类型、输出格式、填入登陆号,提交。
就可以得到检索结果,复制粘贴保存备用。
整理同源序列
为了在后面建立进化树上尽可能保持美观,我们需要为这些序列重命名。将序列按照蛋白质长度从小到大排序,然后去掉登陆号后面的注释,对登陆号进行重命名。要注意保留原始文件以备不时之需。
批量下载的拟南芥,文件中已经包含LENGTH=1234
的字样,序列排序后重命名的格式可以为ATFBA1
;而水稻就麻烦些,我目前只知道在 国家水稻数据中心 里利用登陆号搜索,点击基因 ID 可以得到详细的基因数据,其中就有蛋白质长度,序列排序后重命名的格式可以为OsFBA1
。
全部整理完之后,可以按照下面的示例,每个序列之间空一行,然后将所有种族的序列放到同一个文件里,然后把.txt
后缀修改为.fasta
。
>ATFBA1
序列
>JcFBA2
序列
>OsFBA3
序列
在文件资源管理器上方点击“查看”,勾选“文件扩展名”,然后就可以修改文件后缀了。千万要注意保留原始文件以备不时之需。
构建进化树
1. 序列比对
在 MEGA主页 根据自己系统下载对应版本程序。根据用新不用旧的道理,这里推荐使用最新版本 MEGA X(64bit)
。这里提供 备份下载。
在默认安装 MEGA X 的前提下,.fasta
文件会默认使用 MEGA X 打开。因此双击整理好的.fasta
序列文件,打开它,就会弹出下面的界面。
如果 fasta 文件不能默认用 MEGA X 打开,也可以点击“File”,“Open a file”,找到fasta 文件打开。
然后我们点击上方的“W”,点击 “Align Protein” 来利用内置的 ClustalW 进行序列比对。
在弹出的窗口选择“OK”,选中所有序列。然后在“ClustalW options”里也选择“OK”,在默认配置下进行序列比对。
将比对结果保存。点击 Data,如图示保存为.meg
格式。
2. 构建进化树
选择菜单栏上的PHYLOGENY
,选中第一栏 Construct/Test Maximum ……
,导入上一步生成的.meg
文件
之后全部默认,等待程序分析,分析时长依序列数量而定,即可得到进化树。
3. 美化进化树
还没写
4. 导出进化树
点击“Image”,即可输出各种格式的图片,这里建议使用 BMP 格式,如果打开不,可以试试使用 Honeyview 来浏览这类图片。
本文作者:mikusa
本文链接:https://www.himiku.com/archives/mega.html
版权声明:所有文章除特别声明外均系本人自主创作,转载及引用请联系作者,并注明出处(作者、原文链接等)。
MEGA内置的两个软件CLUSTAL和MUSCLE都是基于MSA(multiple sequence alignment)的,但MUSCLE有显著的速度优势,CLUSTAL理论上更准。但是要追求准确性的话还是用算法更优的mafft为好,也能处理更复杂的对齐。MEGA比对些差异小、序列短的就好了,这时候不如无脑MUSCLE。
哈哈哈,没办法,中途换课题了。。至今已经换了三个辅导老师,也就是换了三个课题了,心累啊啊啊
这也太惨了吧……啥专业原来啥课题啊?
厉害了,大佬,正为毕业论文发愁呢,忽然发现了一个宝藏!
现在才发愁还来得及吗……
喜欢上了UP主!!!
???我关注了个什么博客