NCBI-blast-本地比对

安装 Blast +

将下载的安装包解压缩后安装对应的.exe文件即可，安装完成后将安装目录下的bin文件夹的路径添加到环境变量中的Path中。

ftp://ftp.ncbi.nlm.nih.gov/blast/db/

构建比对数据库

可以利用自带的函数下载数据库：

1	`nohup perl update_blastdb.pl --decompress nt &> update.log &`

1	`makeblastdb -in swissprot -dbtype prot -out swissprot.blast`

-in: 待格式化的序列文件

-dbtype: 数据库类型，nucl 为核酸，prot 为蛋白

-out: 输出数据库名，可用于后续 -db 参数设置

比对

1	`blastn -query AE014075.fasta -db /e/Blast+/database/test/res_genome.blast -out 20210421test.txt -evalue 1e-5 -outfmt 6`

-query: 输入文件路径及文件名

-out: 输出文件路径及文件名

-db: 格式化了的数据库路径及数据库名

-outfmt: 输出文件格式，共 12 种，6 是 tabular 格式对应 BLAST 的 m8 格式

-evalue: 设置输出结果的 e-value 值，e 值越小最后结果可信度越

结果解读

[1] Query id：已知的序列 ID

[2] Subject id: 比对到数据库中的序列 ID

[3] % identity : 相似度(在氨基酸水平上，相似度可以设置为 30，严格一些可以设置为 70；在核苷酸水上，可以设置 70 或 90。没有统一的标准，还是以特定研究的参考文献为准。)

[4] alignment length：比对长度

[5] mismatches ：错配数目

[6] gap openings：gap 的数目

[7] q. Start：已知的序列比对起始位置

[8] q. End：已知的序列比对终止位置

[9] s. Start：数据库中序列比对起始位置

[10] s. End；数据库中序列比对终止位置

[11] E value；比对的 E 值

[12] score；比对的得分

注意比对到的序列长度。评价一个 blast 结果的标准主要有三项，E 值（Expect)，一致性 (Identities)，缺失或插入（Gaps）。加上比对长度的话，就有四个标准了。

E 值（Expect)：表示随机匹配的可能性，例如，E=1，表示在目前大小的数据库中，完全由机会搜到对象数的平均值为 1.E 值越大，随机匹配的可能性也越大。E 值接近零或为零时，具本上就是完全匹配了。通常来讲，我们认为 E 值小于 10-5 就是比较可性的 S 值结果。我们可以想象，相同的数据库，E=0.001 时如果有 1000 条都有机会 S 值比现在这个要高的话，那么不 E 设置为 10-6 时可能就会只得到一条结果，就是 S 值最可靠的那个。但是 E 值也不是万能的。它在以下几个情况下有局限性：

1）当目标序列过小时，E 值会偏大，因为无法得到较高的 S 值。

2）当两序列同源性虽然高，但有较大的 gap（空隙）时，S 值会下降。这个时候 gap scores 就非常有用。

3）有些序列的非功能区有较低的随机性时，可能会造成两序列较高的同源性。

E 值总结：

E 值适合于有一定长度，而且复杂度不能太低的序列。当 E 值小于 10-5

时，表明两序列有较高的同源性，而不是因为计算错误。当 E 值小于 10-6 时，表时两序列的同源性非常高，几乎没有必要再做确认。

一致性 (Identities)：或相似性。匹配上的碱基数占总序列长的百分数。

Score 得分值越高说明同源性越好；Expect 期望值越小比对结果越好，说明因某些原因而引起的误差越小；Identities 是同源性（相似性），例中所示比对的 1299 个碱基中只有 35 个不配，其他 97％相同；

Gaps 是指多出或少的碱基或缺失的碱基数；缺失或插入（Gaps）：插入或缺失。用 “—“ 来表示。

此外比对的 Strand 则通 s. Start：和 s. End 判断，如上述结果的第三行. Star 值大于 s. End，则表示负链。

Blast与Blast+的差异

参数	Blast	Blast+
数据库格式化函数	formatdb	makeblastdb
输入 / 输出	-i / -o	-query / -out
格式化了的数据库路径及数据库名	-d	-db
输出结果的 e-value 值	-e	-evalue
输出文件格式	-m	-outfmt
最大目标的数目	-v / -b	-max_target_seqs

💌lixiang117423@foxmail.com
💌lixiang117423@gmail.com

NCBI-blast-本地比对

https://lixiang117423.github.io/article/8955ljki/

作者

小蓝哥

发布于

2021年11月23日

许可协议

Ubuntu部署Hexo 上一篇

重测序分析脚本下一篇