GSDS 是由北京大学生物信息学中心提供的用于显示基因外显子、内含子、保守元件的组成和位置的一个在线服务,全英文界面。由于有些地方不是很好操做,这里把我的步骤列在下面。

sequence (FASTA)格式

GSDS 2.0 目前提供四种格式:BED、Gen­Bank Ac­ces­sion Num­ber or GI、GTF/​GFF3 和 se­quence (FASTA)。前三种我都不会,所以不讲。

选中 se­quence (FASTA) 格式后,要求上传 CDS se­quence (FASTA) 和 Ge­nomic se­quence (FASTA) 两种文件。

1. 获取 CDS sequence (FASTA)

CDS se­quence (FASTA) 可以批量获取。打开 NCBI Batch Entrez,选择 Pro­tein,上传登陆号文件,具体参考 这个 。旁边 Send to 的时候选择 FASTA CDS 就可以。

2. 获取 Genomic sequence (FASTA)

而 Ge­nomic se­quence (FASTA) 获取就较为繁琐,目前我还不知道有啥不用脚本就可以批量下载的方法。超费时间的手动获取方法流程如下:

  1. NCBI Batch Entrez 里选择 Gene,上传登陆号
  2. 点击列表,进入单个基因详情页
  3. 点击右下 FASTA,获取 DNA FASTA,复制结果,粘贴保存到同一个文件里

下拉,找到 mRNA and Pro­tein (s) 这一栏,对应的是蛋白质登陆号。

那么在详情页里获取到的必要信息有:

  • LOC105628049
  • JCGZ_05469
  • NW_012124111.1
  • XP_012064751.1

如果你已经用过 MapChart 绘制染色体定位图,并且已经按照染色体长度排序,且为每个登陆号都绑定了自己重命名的编号,就可以把这些数据全部收集到一起,方便查阅。建议建个表格,比如:

NumberRenameGene NameGene IDACCESSIONProtein Size(aa)MW(Da)PILocation
1JcHSP60-1LOC105628049JCGZ_05469XP_012064751.157461145.435.84LG1

3. 整理数据

批量下载的 CDS se­quence (FASTA) 文件大致如下,其中每个 CDS se­quence 都包含了 类似 XP_012080304.1 这样的蛋白质登陆号。

>lcl|XM_012224914.2_cds_XP_012080304.1_1 [gene=LOC105640534] [db_xref=GeneID:105640534] [protein=T-complex protein 1 subunit delta] [protein_id=XP_012080304.1] [location=209..1813] [gbkey=CDS] 序列 >lcl|XM_012209361.2_cds_XP_012064751.1_1 [gene=LOC105628049] [db_xref=GeneID:105628049] [protein=ruBisCO large subunit-binding protein subunit alpha] [protein_id=XP_012064751.1] [location=436..2196] [gbkey=CDS] 序列

整理的 Ge­nomic se­quence (FASTA) 文件大致如下,其中每个 Ge­nomic se­quence 都包含了类似 NW_012124182.1 这样的 DNA 登陆号。

>NW_012124182.1:c1896425-1890276 Jatropha curcas cultivar GZQX0401 unplaced genomic scaffold, JatCur_1.0 scaffold84, whole genome shotgun sequence 序列 >NW_012125068.1:c2591815-2589868 Jatropha curcas cultivar GZQX0401 unplaced genomic scaffold, JatCur_1.0 scaffold779, whole genome shotgun sequence 序列

而在上一步里,我们已经整理了大量数据,把 CDS se­quence (FASTA) 文件和 Ge­nomic se­quence (FASTA) 文件全部重命名一遍,每个数据都要一一对应。

最后应该是这样:

CDS se­quence (FASTA) 文件

>JcHSP60-1 ATGGCAGCACCGGCAGTCTCCCAGCCTAGATCCTCCAAGACCGAGTCTTATGTTGACAATAAACGCAAGG AGGATATCCGCCACGCTAATATAGTTGCCGCC以下省略

Ge­nomic se­quence (FASTA) 文件

>JcHSP60-1 GGGTAAAACAATTTCCAGTAACTAAACCTTGTCCAAAGCTAAAACCCTACCAAAAGCCCTCGCTTCTGAT TCTGAATTGCAAACAGAAAAACAGCAGAAAA以下省略

结果

保存之后上传,默认参数不变,结果如图,仅供参考。