基因家族分析是一种常见的生物信息学分析套路,也是生物信息学数据挖掘发表小文章常用的分析方法,和GEO挖掘等类似。基因家族的分析鉴定可以用pfam上的hmm
文件进行基因家族的检索鉴定,也可以用blast
的方法进行比对鉴定,通常是适用拟南芥对应的基因家族进行比对鉴定。
植物转录因子数据库,点击访问。
基因家族分析思路及文章撰写思路
基因家族分析是继GEO数据挖掘后,一种新的生物信息学挖掘策略。
如何做基因家族研究,可以参考这个帖子:http://www.planttech.com.cn/blog/58882464a46。
数据准备
需要准备的数据主要是参考基因组数据,包括fasta
格式的序列文件、gff
或gtf
格式的基因组注释文件、蛋白质序列文件(通常是每个转录本的蛋白序列)、cDNA
序列等文件。如果有转录组数据的话进行对应的转录组分析即可。除开上述这些文件外,还需要适用的文件还有.hmm
格式的文件。
软件准备
只需要会使用Linux系统,会安装Docker即可,然后下载组学大讲堂
的镜像即可。点击浏览镜像地址。Docker的安装适用方法参考\@ref(WSL4Docker)。
分析过程
- mRNA_ID与基因ID的提取
由于一个基因会对应多个转录本,因此一个基因下会对应多个mRNA的编号。在后续的分析中,每个基因只需要选择一个转录本的编号进行分析即可,因为每个基因不同的转录本的序列差异是较小的。提取的代码:
1 2
| perl code/script/mRNAid_to_geneid.pl data/unzip_data/*.gff* results/step.1.get.mRNA.and.gene.ID/mRNA2geneID.txt perl code/script/geneid_to_mRNAid.pl data/unzip_data/*.gff* results/step.1.get.mRNA.and.gene.ID/geneID2mRNAid.txt
|
- 检索结构域
这一步主要是以.hmm
文件为基础检索该物种蛋白序列中含有该结构域的序列。输入文件包括.hmm
文件和蛋白文件,输出hmmsearch
的检索结果。其中用于后续筛选的是evalue
这个参数,部分文章以0.001为阈值。of
那一列表示的是某个基因对应的这个结构域有几个。
1
| hmmsearch --domtblout results/step.2.domain.search/hmm.txt --cut_tc data/unzip_data/*.hmm data/unzip_data/*.pep*
|
- 选择结构域
由于一个基因的单个转录本可能会比对到多个结构域,因此需要对比对到的结构域进行选择。默认选择的是第一个结构域。下面代码的最后一个参数是hmmsearch
输出文件里面的E-value
,如果需要全部的第一个结构域,将阈值设置为1即可。
1
| perl code/script/domain_xulie.pl results/step.2.domain.search/hmm.txt data/unzip_data/*.pep* results/step.2.domain.search/domain.fa 1.2e-28
|
- 多序列比对
之所以要进行多序列比对,是因为下载的.hmm
文件是来自很多物种的这个结构域组成的隐马尔科夫模型,进行多序列比对后将该物种检索到的结构域序列进行比对,再次构建该物种该基因家族的隐马尔科夫模型,会更加准确。
1
| echo -e '1\nresults/step.2.domain.search/domain.fa\n2\n1\nresults/step.2.domain.search/out.aln\nr.domain.search/out.dnd\nX\n\n\nX\n' |clustalw
|
1
| hmmbuild results/step.2.domain.search/new.hmm results/step.2.domain.search/out.aln
|
- 重新进行检索
利用构建得到的新的隐马尔科夫模型重新进行检索结构域。
1
| hmmsearch --domtblout results/step.2.domain.search/new.out.txt --cut_tc results/step.2.domain.search/new.hmm data/unzip_data/*.pep*
|
- 筛选输出结果
对重新检索后的结果进行筛选,也是对E-value
进行筛选。
1
| grep -v "^#" results/step.2.domain.search/new.out.txt|awk '$7<0.001 {print}' > results/step.2.domain.search/domain.new.out.selected.txt
|
- 去除重复的ID
上一步筛选得到的是该种中哪些基因是潜在的目标基因家族成员,而一个基因对应了多个mRNA,因此,只需要在筛选后的每个基因中选择一个具有代表性的mRNA进行后续的分析即可。这个提取唯一ID的步骤需要手动完成(PS:手动完成也很快)。手动挑选完mRNA的ID放在第一列,另存为文件uniqueID.txt
。
1
| perl code/script/select_redundant_mRNA.pl results/step.1.get.mRNA.and.gene.ID/mRNA2geneID.txt results/step.2.domain.search/domain.new.out.selected.txt results/step.2.domain.search/remove_redundant_IDlist.txt
|
- 提取蛋白序列
在得到基因ID后需要提取蛋白序列进行后续的分析。在SMART或者Pfam或NCBI CDD确认这些基因是真真正正含有该结构域,没有的基因要剔除!在SMART
中没有检索到结构域的基因在gene.not.in.SMART.txt
中;在Pfam
中全都是WRKY
结构域,对应文件为Pfam.results.txt
。
1 2
| perl code/script/get_fa_by_id.pl results/step.2.domain.search/uniqueID.txt data/unzip_data/*.pep* results/step .2.domain.search/pep.need.confirm.fa
|
1
| perl code/script/stat_protein_fa.pl results/step.2.domain.search/pep.need.confirm.fa results/step.2.domain.search/pep.MW.txt
|
- 构建进化树
选择利用软件CLUSTALW
进行多序列比对,然后利用MEGA
构建进化树。CLUSTALW
输出结果转换成.fasta
格式的方法参考\@ref(pac4xiang)。
- Motif分析
1
| meme results/step.3.seq.and.tree/pep_confirmed.fa -protein -oc results/step.4.motif/ -nostatus -time 18000 -maxsize 6000000 -mod anr -nmotifs 10 -minw 6 -maxw 100
|
1
| perl code/script/get_gene_exon_from_gff.pl -in1 results/step.2.domain.search/uniqueID.txt -in2 data/unzip_data/*.gff* -out results/step.5.gene.structure/gene_exon_info.gff
|
1 2 3
| samtools faidx data/unzip_data/*.dna* cp data/unzip_data/*.fai results/step.5.gene.structure/ perl code/script/get_gene_weizhi.pl -in1 results/step.2.domain.search/uniqueID.txt -in2 data/unzip_data/*.gff* -out results/step.5.gene.structure/mrna_location.txt
|
- 顺式作用元件分析
脚本默认的启动子长度是1500bp。将提取得到的启动子序列上传到Plane CARE进行分析。
1
| perl code/script/get_promoter.pl data/unzip_data/*dna.top* results/step.5.gene.structure/mrna_location.txt results/step.6.cis.acting.element/promoter.txt
|
基因组共线性分析
1 2 3 4
| mkdir MCScanX cd MCScanX
mkdir mcscan
|
1
| perl ../script/get_mRNA_position.pl allmRNAID.txt ../Arabidopsis_thaliana.TAIR10.41.gff3 AT.gff
|
1 2 3 4 5 6 7 8 9 10 11
| # 分别是染色体位置,转录本ID,起始位置和终止位置 1 Pno01G013682.t2 7993891 8000167 1 Pno01G011207.t1 6521081 6522022 1 Pno01G002381.t1 15982661 15984634 1 Pno01G006728.t1 32747373 32748586 1 Pno01G001298.t1 134750756 134753812 1 Pno01G000565.t1 11549686 11558266 1 Pno01G005598.t1 23981500 23984173 1 Pno01G012140.t1 707333 718266 1 Pno01G006114.t1 27812391 27816942 1 Pno01G001551.t1 14123991 14125021
|
1
| perl ../script/get_fa_by_id.pl allmRNAID.txt ../Arabidopsis_thaliana.TAIR10.pep.all.fa pep.fa
|
1
| makeblastdb -in pep.fa -dbtype prot -title pep.fa
|
1 2
| blastall -i pep.fa -d pep.fa -e 1e-10 -p blastp -b 5 -v 5 -m 8 -o mcscan/AT.blast cp AT.gff mcscan/AT.gff
|
得到的结果是整个基因组的结果:
1 2 3 4 5
| -rwxrwxrwx 1 xiang xiang 17M Dec 6 23:59 sanqi.blast -rwxrwxrwx 1 xiang xiang 339K Dec 7 10:48 sanqi.collinearity # 基因组的所有大片段复制 -rwxrwxrwx 1 xiang xiang 1.7M Dec 7 10:47 sanqi.gff drwxrwxrwx 1 xiang xiang 4.0K Dec 7 10:48 sanqi.html -rwxrwxrwx 1 xiang xiang 39K Dec 7 10:48 sanqi.tandem # 基因组的所有串联重复
|
结果解读:
- 串联重复:当一行里面的两个基因都是感兴趣的基因家族基因的时候,就是需要的串联重复基因。
1 2 3 4 5
| Pno01G001040.t1,Pno01G001042.t1 Pno01G001410.t1,Pno01G001412.t1 Pno01G001524.t1,Pno01G001525.t1 Pno01G001558.t1,Pno01G001560.t1 Pno01G001628.t1,Pno01G001629.t1
|
- 大片段复制:当一行里面的两个基因都是感兴趣的基因家族基因的时候,就是需要的大片段复制基因。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35
|
0- 0: Pno01G005483.t1 Pno01G005033.t2 8e-54 0- 1: Pno01G005544.t1 Pno01G005040.t3 7e-159 0- 2: Pno01G005828.t1 Pno01G005055.t1 2e-103 0- 3: Pno01G005829.t1 Pno01G005058.t1 0 0- 4: Pno01G005897.t1 Pno01G005088.t1 1e-164 0- 5: Pno01G006072.t2 Pno01G005092.t1 1e-80
1- 0: Pno01G000527.t2 Pno01G004765.t1 2e-75 1- 1: Pno01G000535.t1 Pno01G004763.t1 0 1- 2: Pno01G000542.t2 Pno01G004760.t2 4e-152 1- 3: Pno01G000545.t2 Pno01G004757.t1 7e-68 1- 4: Pno01G000558.t1 Pno01G004741.t6 8e-20 1- 5: Pno01G000568.t2 Pno01G004737.t2 4e-144 1- 6: Pno01G000599.t1 Pno01G004735.t1 2e-68 1- 7: Pno01G000636.t1 Pno01G004716.t1 1e-144
2- 0: Pno01G006165.t1 Pno01G002002.t1 1e-23 2- 1: Pno01G006238.t1 Pno01G001895.t1 0 2- 2: Pno01G006400.t1 Pno01G001832.t2 3e-87 2- 3: Pno01G006416.t2 Pno01G001818.t1 3e-48 2- 4: Pno01G006555.t1 Pno01G001725.t1 2e-130 2- 5: Pno01G006745.t1 Pno01G001684.t1 2e-46 2- 6: Pno01G006864.t1 Pno01G001662.t1 0
|
找打目标基因家族中存在串联重复的基因:
1 2 3
| perl /biosoft/MCScanX/MCScanX/downstream_analyses/detect_collinearity_within_gene_families.pl -i WRKY_family.txt -d mcscan/AT.collinearity -o WRKY.collinear.pairs
perl ../script/get_tandem_gene.pl -id gene_list.txt -tandem mcscan/AT.tandem -od ./ -name WRKY
|
1 2 3 4 5 6 7 8 9 10 11
| mkdir circos cd circos
cp ../MCScanX/mcscan/AT.collinearity . cp ../MCScanX/WRKY.collinear.pairs .
perl ../script/colline_v3.pl -gff ../MCScanX/AT.gff -list WRKY.collinear.pairs -colline AT.collinearity -od data -name WRKY
cd data
circos -conf config3.txt -outputdir ./ -outputfile WRKY
|
配置文件:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119
| chromosomes_units=1000000 #刻度单位Mb karyotype=./chr.info #染色体信息配置文件 show_tick_labels=yes show_ticks=yes spacing=10u <ticks> #设置染色体刻度 color=black format=%d multiplier=1e-6 radius=1r thickness=2p <tick> size=10p spacing=5u </tick> <tick> color=black format=%d label_offset=10p label_size=25p show_label=yes size=15p spacing=25u thickness=4p </tick> </ticks>
<ideogram> #染色体绘制设置 fill=yes #是否填充颜色 label_font=default label_parallel=yes label_radius=dims(image,radius)-60p label_size=45 radius=0.8r #设置半径,以免基因名称过长超出显示范围 show_label=yes <spacing> default=0.005r </spacing> stroke_color=dgrey stroke_thickness=2p thickness=0.03r </ideogram>
<links> #设置连线 bezier_radius=0r bezier_radius_purity=0.75 color=black crest=0.5 <link> #基因家族共线性 bezier_radius=0r bezier_radius_purity=0.75 color=set2-8-qual-1 crest=0.5 file=./nlr.link.txt #输入文件 radius=0.98r <rules> <rule> color=red condition=var(intrachr) </rule> <rule> color=red condition=var(interchr) </rule> </rules> thickness=8 z=20 #层数 </link> <link> #全基因组共线性 bezier_radius=0r bezier_radius_purity=0.75 color=230,230,230,0.2 crest=0.5 ribbon=yes file=./genome.blocklink.txt #输入文件 radius=0.98r thickness=1 z=15 </link> radius=0.40r thickness=1 </links> <plots> <plot> color=black label_snuggle=yes #如多个文本文字距离过近,避免重叠 参考:https://www.omicsclass.com/article/678 file=./nlr.text.txt #输入文件 label_font=condensed label_size=24p link_color=red link_dims=10p,10p,50p,20p,10p link_thickness=2p r0=1r r1=1r+500p rpadding=0p padding=0p show_links=yes type=text </plot> type=histogram </plots>
<colors> <<include etc/colors.conf>> <<include etc/brewer.conf>> #<<include etc/colors_fonts_patterns.conf>> #<<include colors.ucsc.conf>> #<<include colors.hsv.conf>> </colors>
<fonts> <<include etc/fonts.conf>> </fonts>
<image> <<include etc/image.conf>> </image> <<include etc/housekeeping.conf>>
|
软件JCVI:https://github.com/lixiang117423/jcvi
💌lixiang117423@foxmail.com
💌lixiang117423@gmail.com