使用 MEGA 构建系统进化树

之前「构建系统发育树」一文中已经大致介绍了 MEGA 的使用方法，但有些地方没说清楚，这里就现有资源再解释(shǔi)下。有纰漏的地方还请多多指正。

收集同源序列

使用 BLAST 收集同源序列可以参考「这里」，只是这种收集方法到的序列包含多个物种。如果需要和特定物种进行同源比对，如常用的模式植物拟南芥、水稻，在搜索过程中会有些问题。下面以这两个物种为例，给出我的解决方法。

1. 拟南芥

获取拟南芥基因序列，主要用到两个网站：

TAIR：https://www.arabidopsis.org/
PlnTFDB：http://plntfdb.bio.uni-potsdam.de/v3.0/

TAIR（拟南芥信息资源）提供大量拟南芥的数据，包括完整的基因组序列、基因结构，基因产物信息，基因表达，DNA和种子库，基因组图，遗传和物理标记，出版物以及有关拟南芥研究社区的信息。
PLANT TRANSCRIPTION FACTOR DATABASE（植物转录因子数据库），简称 PlnTFDB，目前包含2657个蛋白质模型，其中拟南芥的蛋白质序列是从 TAIR 上整理的。

在 PlnTFDB 中可以获取常见的序列。如下图，依次点击“Eudicot”、“Arabidopsis thaliana”，进入拟南芥数据库。

点击表格中列出的转录因子家族，如“zf-HD”。

点击“Check all”选中所有序列，再点击“Retrieve”就可以直接下载.fasta格式的序列文件。

如果表格中没有自己想要的基因家族，那么可以用 TAIR 进行 BLAST 搜索。

进入 TAIR 主页，在搜索框中填入基因家族名称，选择蛋白质数据库，点击搜索。

以我的 HSP60 为例，搜索后得到以下结果。选择最接近所需基因，比如最后一个。

点击“Send to BLAST”，在下一个页面点击“Run BLAST”。因为不知道这些参数有啥作用，直接用默认参数进行 BLAST 搜索。

随后就得到了带有 TAIR 登陆号的基因序列列表。

排除掉 E 值大于0.01的部分，保存剩下的部分。因为这是基因的登陆号，所以还要进一步检索对应的蛋白质。

将上述登陆号整理好，利用 TAIR 批量下载 fasta 文件。

打开 TAIR 的批量检索页面：https://www.arabidopsis.org/tools/bulk/index.jsp ，点击 Sequences，开始检索。依照下图填入登陆号，设置参数，获得 fasta 文件。

2.水稻

获取水稻基因序列，主要用到两个网站：

Rice Genome Annotation Project（水稻基因组注释项目）：http://rice.plantbiology.msu.edu/
国家水稻数据中心：http://www.ricedata.cn/gene/

因为先前 HMMER 里已经获取到了 Pfam 码，那么搜索水稻的序列就简单多了。

在 Rice Genome Annotation Project 首页找到 Protein Domain Search，在 Pfam profile 搜索框里填入Pfam 码，点击搜索。

这里就不再贴图了，把搜索结果中“Model”那一列里的登陆号整理出来。

打开水稻基因组注释项目的批量下载页：http://rice.plantbiology.msu.edu/downloads_gad.shtml ，依次选择数据类型、输出格式、填入登陆号，提交。

就可以得到检索结果，复制粘贴保存备用。

整理同源序列

为了在后面建立进化树上尽可能保持美观，我们需要为这些序列重命名。将序列按照蛋白质长度从小到大排序，然后去掉登陆号后面的注释，对登陆号进行重命名。要注意保留原始文件以备不时之需。

批量下载的拟南芥，文件中已经包含LENGTH=1234的字样，序列排序后重命名的格式可以为ATFBA1；而水稻就麻烦些，我目前只知道在国家水稻数据中心里利用登陆号搜索，点击基因 ID 可以得到详细的基因数据，其中就有蛋白质长度，序列排序后重命名的格式可以为OsFBA1。

全部整理完之后，可以按照下面的示例，每个序列之间空一行，然后将所有种族的序列放到同一个文件里，然后把.txt后缀修改为.fasta。

>ATFBA1
序列

>JcFBA2
序列

>OsFBA3
序列

在文件资源管理器上方点击“查看”，勾选“文件扩展名”，然后就可以修改文件后缀了。千万要注意保留原始文件以备不时之需。

构建进化树

1. 序列比对

在 MEGA主页根据自己系统下载对应版本程序。根据用新不用旧的道理，这里推荐使用最新版本 MEGA X(64bit)。这里提供备份下载。

在默认安装 MEGA X 的前提下，.fasta文件会默认使用 MEGA X 打开。因此双击整理好的.fasta序列文件，打开它，就会弹出下面的界面。

如果 fasta 文件不能默认用 MEGA X 打开，也可以点击“File”，“Open a file”，找到fasta 文件打开。

然后我们点击上方的“W”，点击 “Align Protein” 来利用内置的 ClustalW 进行序列比对。

在弹出的窗口选择“OK”，选中所有序列。然后在“ClustalW options”里也选择“OK”，在默认配置下进行序列比对。

注意不要关闭窗口，等待比对结束。

将比对结果保存。点击 Data，如图示保存为.meg格式。

2. 构建进化树

选择菜单栏上的PHYLOGENY，选中第一栏 Construct/Test Maximum ……，导入上一步生成的.meg文件

之后全部默认，等待程序分析，分析时长依序列数量而定，即可得到进化树。

3. 美化进化树

还没写

4. 导出进化树

点击“Image”，即可输出各种格式的图片，这里建议使用 BMP 格式，如果打开不，可以试试使用 Honeyview 来浏览这类图片。

本文作者：mikusa
本文链接：https://www.himiku.com/archives/mega.html
版权声明：所有文章除特别声明外均系本人自主创作，转载及引用请联系作者，并注明出处（作者、原文链接等）。

生物生物信息学 MEGA 进化树

• 评论时请填写真实邮箱以便接收回复提醒。
• 初次评论需要审核，与文章无关的评论请到留言页发布。

已有 7 条评论

意识形态的崇高客体

2022-12-01 10:50

1 0

MEGA内置的两个软件CLUSTAL和MUSCLE都是基于MSA（multiple sequence alignment）的，但MUSCLE有显著的速度优势，CLUSTAL理论上更准。但是要追求准确性的话还是用算法更优的mafft为好，也能处理更复杂的对齐。MEGA比对些差异小、序列短的就好了，这时候不如无脑MUSCLE。