起因
需要大量使用CDD-Search检索结构域,但是网页版有限制,单次序列不能超过1000条(我单次就近条啊),索性直接在服务器上搭建CDD本地版。
数据下载
1
| ascp -v -k 1 -T -l 1000m -i ~/mambaforge/envs/tools4bioinf/etc/asperaweb_id_dsa.openssh anonftp@ftp.ncbi.nih.gov:/pub/mmdb/cdd/cdd.tar.gz ./
|
然后直接解压即可。
数据库构建
新建了一个blast+
的环境才运行成功。
1
| makeprofiledb -in Cdd.pn -out ../db/ncbi.cdd -dbtype rps
|
比对
同样需要进入新的环境进行操作。
1
| rpsblast -query results/oryza.1/6.all.wrky.pep.fa -outfmt 6 -evalue 0.01 -db ~/database/ncbi.cdd/db/ncbi.cdd -out results/oryza.1/7.ncbi.cdd.res.txt -num_threads 60
|
结构域匹配
下载分类信息
1
| ascp -v -k 1 -T -l 1000m -i ~/mambaforge/envs/tools4bioinf/etc/asperaweb_id_dsa.openssh anonftp@ftp.ncbi.nih.gov:/pub/mmdb/cdd/cddid.tbl.gz ./
|
解压后如下:
1
| 427140 pfam03106 WRKY WRKY DNA -binding domain. 57
|
剩下的就是将比对的结果和这个表进行关联即可。