EGAPx文档中文版-AI生成
EGAPx 真核生物基因组注释流程 - 中文使用指南
一、EGAPx 是什么?
EGAPx(Eukaryotic Genome Annotation Pipeline - External)是 NCBI(美国国立生物技术信息中心)官方开源的真核生物基因组自动化注释工具。
简单来说,EGAPx 能做什么?
给你一个基因组的 DNA 序列 + 物种信息 + 转录组数据,它就能自动预测出:
- 哪里是基因
- 基因分几个外显子
- 基因表达什么蛋白
- 蛋白有什么功能
它的工作原理
1 | |
- 蛋白比对:用
miniprot或prosplign把已知物种的蛋白序列比对到你的基因组 - 短RNA-seq比对:用
STAR比对短reads(如Illumina数据) - 长RNA-seq比对:用
minimap2比对长reads(如PacBio、Nanopore数据) - 基因预测:基于这些证据,用 Gnomon 预测基因结构
- 功能注释:给预测的基因加上功能描述
二、支持的物种
✅ 支持的物种(按分类群)
| 分类群 | 包含范围 |
|---|---|
| 脊索动物 | 哺乳动物、鸟类、鱼类、其他脊椎动物 |
| 节肢动物 | 膜翅目、双翅目、鳞翅目、鞘翅目、半翅目等 |
| 棘皮动物 | 海星、海胆等 |
| 腔肠动物 | 珊瑚、水母等 |
| 单子叶植物 | 水稻、玉米等 |
| 双子叶植物 | 菊类、蔷薇类、豆类、石竹目等 |
❌ 不支持的物种
- 真菌、原生生物、线虫 - 这三类不在支持范围内,建议用其他工具
⚠️ 如果你用了不支持的物种TaxID,流程会报错失败。
三、安装
系统要求
- 容器:Docker 或 Singularity
- 集群:AWS Batch、SLURM/UGE,或单机(推荐 32核CPU + 256GB内存)
- Nextflow:v23.10.1 或更高
- Python:v3.11+
安装步骤
1 | |
四、准备输入数据
1. 必需输入
EGAPx 使用 YAML 格式的配置文件,至少需要两个参数:
1 | |
如何获取 taxid?
- 去 https://www.ncbi.nlm.nih.gov/taxonomy 搜索你的物种名称
- 或搜索 “Homo sapiens taxid”
2. 基因组文件要求
- 格式:标准 FASTA 格式(
.fasta或.fa) - 命名:序列名尽量简短、简单,避免特殊字符
- 重复序列:不需要提前软屏蔽(softmask),流程会自动处理
- 细胞器序列:建议保留在基因组中,避免reads错误比对
- 污染筛查:强烈建议在运行前用 FCS 筛查污染
3. 转录组数据(强烈推荐)
短RNA-seq数据(Illumina)
方式一:从SRA数据库下载
1 | |
方式二:使用本地文件
1 | |
长RNA-seq数据(PacBio / Nanopore)
1 | |
同时使用短reads和长reads
1 | |
五、运行 EGAPx
1. 首次运行 - 生成配置文件
1 | |
执行器选项:
| 参数 | 说明 |
|---|---|
-e local |
本地单机运行 |
-e docker |
使用 Docker |
-e singularity |
使用 Singularity |
-e slurm |
SLURM集群(需编辑配置文件) |
-e aws |
AWS云平台 |
-e biowulf |
NIH Biowulf集群 |
首次运行后,会在 ./egapx_config/ 目录生成配置文件,可按需修改。
2. 资源配置调整
如果基因组很大(如 > 3Gb)或数据量很大,可能需要调整内存:
编辑 egapx_config/process_resources.config:
1 | |
3. 离线模式(无网络或需可重复运行)
1 | |
六、输出文件解读
主要输出文件
| 文件名 | 说明 |
|---|---|
annotated_genome.asn |
最终注释结果(ASN格式,用于提交NCBI) |
complete.genomic.gff |
GFF3格式注释(最常用,推荐) |
complete.genomic.gtf |
GTF格式注释 |
complete.genomic.fna |
基因组序列(FASTA) |
complete.cds.fna |
编码区序列 |
complete.transcripts.fna |
转录本序列 |
complete.proteins.faa |
蛋白序列 |
annotation_data.cmt |
注释元数据(用于提交) |
质量评估文件
| 文件/目录 | 说明 |
|---|---|
GNOMON/contam_rpt.tsv |
污染报告,检查是否有原核生物污染 |
GNOMON/new.gnomon_report.txt |
每个基因的证据支持详情 |
busco/ |
BUSCO完整性评估结果 |
stats/feature_counts.xml |
特征数量统计 |
stats/feature_stats.xml |
特征详细统计 |
输出统计示例
1 | |
关键质量指标
- fully supported:该转录本有完整的实验证据支持(蛋白或RNA-seq)
- ab initio > 5%:超过5%的序列是ab initio预测(仅靠HMM模型),可能质量较低
- major correction:存在移码突变或内部终止密码子,可能是低质量蛋白,标记为”LOW QUALITY PROTEIN”
⚠️ 如果超过10%的蛋白编码基因有”major correction”,建议先优化基因组组装质量再注释。
七、常见问题
Q1: 运行时间多久?
取决于基因组大小和数据量:
- 果蝇(144Mb)+ 1个Illumina数据:约 3小时
- 鸡(1.1Gb)+ 20个RNA-seq数据:约 5.5小时
Q2: BUSCO分数低怎么办?
- 可能原因:组装质量差、基因组特殊、物种与BUSCO模型距离远
- 检查
busco/short_summary.txt了解具体情况 - 用 https://busco.ezlab.org/ 查看同物种的预期分数
Q3: 污染怎么办?
EGAPx 会在蛋白质比对阶段检测污染。如果超过5%的基因模型比对到原核生物,会报错停止。
建议:
- 运行前用 FCS 筛查污染
- 检查
GNOMON/contam_rpt.tsv中的可疑序列
Q4: 单染色体基因组出问题?
某些步骤(如 bam_bin)在单染色体基因组上可能失败。临时解决方案:添加一个假的scaffold或线粒体序列。
八、提交到NCBI
准备文件
- BioProject 和 BioSample:在 https://submit.ncbi.nlm.nih.gov/subs/bioproject/ 注册
- locus_tag前缀:提交时会分配
- source table:序列来源信息表
- assembly structured comment:从 https://submit.ncbi.nlm.nih.gov/structcomment/genomes/ 生成
使用 prepare_submission 工具
1 | |
检查输出
.sqn文件:最终提交文件.val文件:验证报告(检查是否有ERROR/FATAL).dr文件:差异报告
⚠️ BACTERIAL_* 相关的FATAL可以忽略。
九、快速开始示例
1 | |
十、获取帮助
- GitHub Issues:https://github.com/ncbi/egapx/issues
- 邮箱:cgr@nlm.nih.gov
文档版本:基于 EGAPx v0.4.1-alpha
EGAPx文档中文版-AI生成
https://lixiang117423.github.io/article/egxpa-cn/