生物信息学常用软件
持续输出中。。。。。。
1 Annovar
1.1 参考文献
ANNOVAR: functional annotation of genetic variants from high-throughput sequencing data
1.2 功能概述
对变异(SNP和INDLE等)进行注释。
1.3 下载安装
从https://www.openbioinformatics.org/annovar/annovar_download_form.php使用edu邮箱申请下载。下载完成后直接解压即可使用。
1 |
|
有一下这些文件:
1 |
|
1.4 构建数据库
先使用gff3ToGenePred(下载完成后添加可执行权限即可:chmod +x gtfToGenePred
)处理gff
文件:
1 |
|
然后提取基因的mRNA序列:
1 |
|
需要注意的是这两步得到的输出文件的前缀需要完全一致,就比如上面的
NDH108
,而且前缀的后面需要跟上下划线,refGene.txt
和refGeneMrna.fa
这两个名称必须这样写。
1.5 变异注释
首先对VCF文件进行转换:
1 |
|
然后进行注释,输入文件是上一部转换后的VCF文件,
--buildver
后面跟的是前两部使用到的前缀:1 |
|
输出文件有这些:
1 |
|
其中
vcf.annov.variant_function
(所有的变异)文件是这样的:1 |
|
vcf.annov.exonic_variant_function
(外显子区域的变异)文件是这样的:1 |
|
2 BWA
2.1 参考文献
Aligning sequence reads, clone sequences and assembly contigs with BWA-MEM
2.2 功能概述
主要是序列比对。
2.3 下载安装
1 |
|
2.4 构建索引
1 |
|
2.5 序列比对
1 |
|
3 GATK
3.1 参考文献
Genomics in the cloud: using Docker, GATK, and WDL in Terra
3.2 功能概述
主要是对变异进行鉴定。
3.3 下载安装
建议使用Conda进行安装:
1 |
|
3.4 构建索引
1 |
|
生成的文件是NDH108.dict
.
3.5 变异检测
1 |
|
4 VCFDis
4.1 参考文献
4.2 功能概述
使用VCF文件计算p-distance
并构建群体的系统发育树。
4.3 下载安装
直接从GitHub上下载编译即可,也可以使用Docker等容器技术。
4.4 使用案例
测试使用的是Docker,运行完成后会输出距离矩阵和系统发育树。
1 |
|
5 BCFtools
5.1 参考文献
Twelve years of SAMtools and BCFtools.
5.2 功能概述
处理VCF文件。
5.3 使用案例
5.3.1 合并VCF文件
在合并VCF文件时,输入文件需要是压缩过的。
1 |
|
5.3.2 过滤VCF文件
1 |
|
这个代码表示保留质量值大于30,而且所有样品的覆盖度都大于10的变异位点。
6 VCFtools
6.1 参考文献
The variant call format and VCFtools
6.2 功能概述
处理VCF文件。
6.3 使用案例
6.3.1 筛选SNP
1 |
|
6.3.2 计算SNP密度
1 |
|
输出文件snp_density.snpden
是SNP密度文件。
6.3.3 筛选INDEL
1 |
|
6.3.4 计算INDEL密度
1 |
|
输出文件indel_density.snpden`是SNP密度文件。
7 plink
7.1 参考文献
PLINK: A Tool Set for Whole-Genome Association and Population-Based Linkage Analyses61352-4?_returnURL=https%3A%2F%2Flinkinghub.elsevier.com%2Fretrieve%2Fpii%2FS0002929707613524%3Fshowall%3Dtrue)
7.2 功能概述
全基因组数据分析软件。
7.3 使用案例
7.3.1 群体PCA
PCA分析前需要过滤一下SNP的缺失率(max-missing)、最小次等位基因频率(maf)和连锁SNP,使用plink完成。输入文件为硬过滤后的plink格式文件,见SNP calling文章的vcf文件转plink文件。
缺失率(max-missing)和次等位基因频率(maf)分别设置为0.2及0.01,也可以根据需要调整(注意vcftools和plink的max-missing数值设置是相反的)。
下面的代码是群体遗传过滤VCF文件用于PCA分析:
1 |
|
8 GCTA
8.1 参考文献
GCTA: A Tool for Genome-wide Complex Trait Analysis00598-7?_returnURL=https%3A%2F%2Flinkinghub.elsevier.com%2Fretrieve%2Fpii%2FS0002929710005987%3Fshowall%3Dtrue)
8.2 功能概述
全基因组复杂形状分析软件。
8.3 使用案例
8.3.1 PCA
使用plink过滤后的VCF文件进行PCA分析。
1 |
|
9 admixture
9.1 参考文献
Fast model-based estimation of ancestry in unrelated individuals
9.2 功能概述
群体结构分析。
9.3 使用案例
使用PCA分析中过滤LD后的文件作为输入。根据实际情况,我们需要测试预设的群体数K从2到自己的总群体数。如果不确定总群体数,可以从2开始测试,直到CV error值最小。
1 |
|
10 seqkit
10.1 参考文献
SeqKit2: A Swiss army knife for sequence and alignment processing
10.2 功能概述
对fastq
或者是fasta
格式的数据进行操作。
10.3 使用案例
10.3.1 reads抽样
1 |
|
-s
表示的是随机数种子,-p
表示的是抽取百分之多少的reads.
10.3.2 提取序列
- ID存放在文件中:
seqkit grep -f 五种方法都有的基因ID.txt NDH108.pep.fa > target.pep.fa
- 单个ID进行提取:
seqkit grep -p "NDH01G36010.1" NDH108.pep.fa
11 Augustus
11.1 参考文献
Stanke M, Diekhans M, Baertsch R, et al. Using native and syntenically mapped cDNA alignments to improve de novo gene finding[J]. Bioinformatics, 2008, 24(5): 637-644.11.2 功能概述
主要用于基因组注释等。11.3 使用案例
11.3.1 模型训练
- 新建一个物种
1
new_species.pl --species=Rice_35minicore_NLR_0.1
1 |
|
- 构建训练用的数据
使用的脚本是gff2gbSmallDNA.pl
- 拆分数据集
使用脚本把上一步准备的数据拆分为训练集和测试集,使用的脚本是randomSplit.pl
- 训练模型
使用etraining
对模型进行训练 - 优化模型
使用optimize_augustus.pl
优化模型 - 测试模型
把训练好的模型用来测试前面准备的测试集:输出的文件的最后又预测结果的相关信息:1
augustus --species=Rice_35minicore_NLR_0.1 02.augustus/0.1_NLR_training_set.gb.test > 04.valid/0.1_prediction_result.gtf
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53###
a-posteriori probability of viterbi path
----------------------------------------
a-posteriori probability of correct path
1008 times were the paths equally likely (identical).
sorted quotients of the rest:
0 quotients were between 1 and 10
******* Evaluation of gene prediction *******
---------------------------------------------\
| sensitivity | specificity |
---------------------------------------------|
nucleotide level | 0.988 | 0.911 |
---------------------------------------------/
----------------------------------------------------------------------------------------------------------\
| #pred | #anno | | FP = false pos. | FN = false neg. | | |
| total/ | total/ | TP |--------------------|--------------------| sensitivity | specificity |
| unique | unique | | part | ovlp | wrng | part | ovlp | wrng | | |
----------------------------------------------------------------------------------------------------------|
| | | | 866 | 715 | | |
exon level | 2893 | 2742 | 2027 | ------------------ | ------------------ | 0.739 | 0.701 |
| 2893 | 2742 | | 488 | 49 | 329 | 522 | 60 | 133 | | |
----------------------------------------------------------------------------------------------------------/
----------------------------------------------------------------------------\
transcript | #pred | #anno | TP | FP | FN | sensitivity | specificity |
----------------------------------------------------------------------------|
gene level | 1139 | 1008 | 556 | 583 | 452 | 0.552 | 0.488 |
----------------------------------------------------------------------------/
------------------------------------------------------------------------\
UTR | total pred | CDS bnd. corr. | meanDiff | medianDiff |
------------------------------------------------------------------------|
TSS | 40 | 0 | -1 | -1 |
TTS | 66 | 0 | -1 | -1 |
------------------------------------------------------------------------|
UTR | uniq. pred | unique anno | sens. | spec. |
------------------------------------------------------------------------|
| true positive = 1 bound. exact, 1 bound. <= 20bp off |
UTR exon level | 0 | 0 | -nan | -nan |
------------------------------------------------------------------------|
UTR base level | 0 | 0 | -nan | -nan |
------------------------------------------------------------------------/
nucUTP= 0 nucUFP=0 nucUFPinside= 0 nucUFN=0
# total time: 246
# command line:
# /share/org/YZWL/yzwl_lixg/miniforge3/envs/Augustus_v.3.5.0/bin/augustus --species=Rice_35minicore_NLR_0.1 02.augustus/0.1_NLR_training_set.gb.test12 edgeturbo
12.1 参考文献
12.2 功能概述
主要是用于下载国家生物信息中心的数据。
12.3 下载安装
1 |
|
12.4 使用案例
1 |
|
13 XtractPAV
13.1 参考文献
[]
13.2 功能概述
在多个基因组之间鉴定PAV.
13.3 使用案列
持续更新中。。。。。。