Augustus注释基因组

  1. AUGUSTUS版本:3.4.0

  2. 官方参考手册

  3. 下载Lentinula edodesGenBank格式注释文件:

    1
    2
    we https://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/021/015/755/GCF_021015755.1_Lenedo1/GCF_021015755.1_Lenedo1_genomic.gbff.gz -O ref.gbff.gz
    gunzip ref.gbff.gz
  4. 剔除序列头无用信息:

    1
    py3 /usr/bin/split.fasta.id.py -i Pchr.fa -by 3 -n 1 -o Pchr.2.fa
  5. 将数据进行拆分用于训练:

    1
    randomSplit.pl ref.gbff 100
  6. 初始化存放位置:

    1
    new_species.pl --species=Pchr
  7. 训练:

    1
    etraining --species=Pchr ref.gbff.train
  8. 查看训练结果:

    1
    ls -ort $AUGUSTUS_CONFIG_PATH/species/Pchr/
  9. 测试模型:

    1
    augustus --species=Pchr ref.gbff.test | tee firsttest.out # takes ~1m
  10. 查看预测准确率:

    1
    grep -A 22 Evaluation firsttest.out

    image-20220830183243181

  11. 参考官方手册预测Phanerodontia chrysosporium基因:

    1
    nohup augustus --species=Pchr Pchr.2.fa > Pchr.gff &
  12. 提取基因蛋白序列:

    1
    getAnnoFasta.pl Pchr.gff
  13. 提取CDS:

    1
    gffread Pchr.final.gff -g Pchr.2.fa -x Pchr.cds.dna.fa
  14. 提取CDS的蛋白序列:

    1
    gffread Pchr.final.gff -g Pchr.2.fa -y Pchr.cds.pep.fa
  15. 结果文件信息:

    1. Pchr.final.gff:基因组注释文件
    2. Pchr.pep.fa:基因蛋白序列
    3. Pchr.cds.dna.fa:基因编码区DNA序列
    4. Pchr.cds.pep.fa:基因编码区蛋白序列

💌lixiang117423@foxmail.com
💌lixiang117423@gmail.com


Augustus注释基因组
https://lixiang117423.github.io/article/augustus/
作者
小蓝哥
发布于
2022年8月30日
许可协议