Nature文章的NLR分析方法
《Nature》论文NLR基因分析方法深度解析
核心目标
本研究的核心生物信息学目标是,在52个马铃薯基因组(代表Solanum section Petota)中,进行全面且高度精确的NLR基因重新注释,构建一个综合性的“NLRome”,并基于此进行深入的比较基因组学和进化分析,最终指导功能基因的克隆和抗性工程。
分析模块一:NLR基因的重新注释 (Reannotation of Nucleotide-binding Resistance Genes)
分析目的:
解决NLR基因因聚集分布(gene clusters)和高序列相似性导致的常规注释不准确问题。此流程旨在对特定基因组区域进行精细化的基因预测,以获得高质量的NLR基因模型。
1. 筛选包含NLR的基因组区域
- 方法/软件:
NLR-Annotator(v.0.7) - 参数: 默认参数 (
default parameters) - 输入:
- 基因组序列文件 (
genome.fasta)
- 基因组序列文件 (
- 输出:
- 一个GFF3文件,标记了所有推定的NLR基因及其保守基序的位置。
- 注意事项:
- 此步骤是一个初步筛选,目的是缩小后续精细注释的范围,提高效率和准确性。
- 原文指出,
NLR-Annotator倾向于漏掉RNL (RPW8–NB-ARC–LRR) 亚家族的NLRs,这是一个已知的软件局限性,需要在后续步骤中手动弥补。
2. 准备精细注释的输入证据
- 目的: 为核心注释工具
MAKER提供三种不同类型的证据,以确保预测的准确性。 - 输入准备:
- 基因组片段:
- 从第一步
NLR-Annotator输出的GFF3文件中提取坐标。 - 在每个坐标的左右两侧各延伸2 kb (
2-kb left and right flanking sequences)。 - 使用
bedtools getfasta或类似工具,从全基因组中提取这些加长后的片段序列。
- 从第一步
- 同源蛋白证据 (Homology Evidence):
- 构建一个非冗余的NLR蛋白同源数据库。来源包括:
- 先前研究中获得的7,007个氨基酸序列。
- 拟南芥(Arabidopsis)的所有已知NLR基因(Araport11注释版本)。
- 实验验证过的NLR基因数据库:
PRGdb 3.0和RefPlantNLR。
- 将以上所有蛋白序列合并成一个FASTA文件。
- 构建一个非冗余的NLR蛋白同源数据库。来源包括:
- 从头预测证据 (De Novo Gene Prediction):
MAKER需要物种特异性的训练集。这些训练集来自于全基因组注释流程中为SNAP,AUGUSTUS,GeneMark-ET准备的模型。
- 表达证据 (Expression Evidence):
- 使用全基因组的RNA-seq数据组装出的转录本序列 (
assembled transcripts)。
- 使用全基因组的RNA-seq数据组装出的转录本序列 (
- 基因组片段:
3. 使用MAKER进行NLR基因模型注释
- 方法/软件:
MAKER - 输入:
- 上述准备好的基因组片段、同源蛋白证据、从头预测证据和表达证据。
- 输出:
- 一个GFF3文件,包含了在输入片段上预测出的NLR基因的精确结构(外显子、内含子等)。
- 对应的蛋白质序列和CDS序列FASTA文件。
- 注意事项:
- 这一步是整个注释流程的核心,通过整合多源证据,
MAKER能够比常规注释流程更准确地界定NLR基因的边界和结构。
- 这一步是整个注释流程的核心,通过整合多源证据,
4. NLR基因的分类
- 方法/软件:
NLRtracker(v.1.01) - 输入:
MAKER输出的NLR蛋白质序列文件。
- 输出:
- 一个分类结果文件,将每个NLR基因根据其结构域(TIR, CC, NB-ARC, LRR)分为三大类和八个亚类。
- 主要类别:
TIR-NLR (TNL),CNL,NL - 次要类别:
CNL,CN,CCX,TIR-NLR (TNL),TN,TX,NL,NBS
- 主要类别:
- 一个分类结果文件,将每个NLR基因根据其结构域(TIR, CC, NB-ARC, LRR)分为三大类和八个亚类。
5. 手动补全RNL亚家族
- 目的: 修正
NLR-Annotator的系统性偏差。 - 方法:
- 在全基因组的蛋白质预测结果(而非仅在MAKER注释的NLR区域)中,通过关键词搜索或结构域鉴定(如HMMER搜索RPW8结构域)来识别RNL基因。
- 将手动识别出的RNL基因整合 (
manually integrated) 到NLR-annotator-based的NLR预测集中。
- 注意事项:
- 这一步是确保NLRome完整性的关键补充。
6. 最终整合
- 方法: 将最终得到的、高质量的NLR基因注释结果,整合回原始的全基因组基因注释文件中。
分析模块二:NLRome的构建与分析 (Construction and Analyses of the NLRome)
分析目的:
基于高质量的NLR注释,构建一个系统发育框架,对所有NLR基因进行分类、聚类,并研究它们的进化动态。
1. 构建NLR系统发育树
- 方法/软件:
- 序列提取: 使用
HMMER(v.3.3.2) 提取所有NLR蛋白的NB-ARC结构域氨基酸序列,E-value阈值设为0.001。 - 多序列比对:
MAFFT(v.7.490) 使用--auto参数。 - 建树:
RAxML(v.8.2.12)- 参数:
-f a -x 5 -p 5 -# 100 -m PROTGAMMAJTT - Bootstrap: 100次。
- 模型: 使用
IQ-TREE(v.2.0.6) 的-m MF参数选择最佳氨基酸替换模型,结果为JTT模型。
- 参数:
- 序列提取: 使用
- 输入:
- 所有预测出的NLR蛋白序列。
- 输出:
- 一个基于NB-ARC结构域的最大似然法系统发育树。
2. NLRome的聚类与分类
- 方法:
- 手动聚类: 基于上述构建的系统发育树,手动将所有NLRs划分为489个clade。划分标准是“一个clade内的成员共享一个共同的祖先”。
- 超级家族分类: 依据系统发育树中的位置以及已报道的NLRs,将所有clade进一步归入6个超级家族 (super clades):
RNLs,TIR-NLRs,CCG10-NLRs,CC-NLR-others,CC-NRC-helpers,CC-NRC-sensors。 - Clade类型定义: 根据一个clade内最主要的NLR类型(CNL, TNL等),为该clade指定类型。
- 识别成对/成簇的NLRs: 如果一个clade中超过50%的成员是成对或成簇排列的,则该clade被定义为
paired或clustered clade。
3. 区分Type I 和 Type II NLRs
- 方法:
- 依据先前研究的标准(Kuang et al., 2004),基于系统发育树的分支长度 (branch length) 和物种间的等位/直系同源关系 (allelic/orthologous relationships) 来区分。
- Type I: 分支长,拷贝数变化大,物种间呈旁系同源关系。
- Type II: 分支短,拷贝数稳定,物种间呈直系同源关系。
分析模块三:非经典结构域(ID)的鉴定与进化分析
分析目的:
在NLRome中鉴定所有携带非经典整合结构域(Integrated Domains, IDs)的NLRs,并研究这些ID的进化起源和选择压力。
1. ID的鉴定
- 方法/软件:
- 使用
pfam_scan.pl脚本对所有NLR蛋白进行结构域预测。 - 过滤掉已知的NLR经典结构域(如NB-ARC, LRR, TIR, CC, RPW8等)。
- E-value阈值设为
0.05。 - 为避免注释错误,排除了那些只在一个NLR和一个物种中出现的ID。
- 使用
- 输出:
- 一个包含所有ID-NLRs及其携带的非经典结构域的列表。
2. 进化压力分析 (Ka/Ks 和 Tajima’s D)
- 目的: 比较ID在NLR基因和非NLR基因中的进化选择压力。
- 方法/软件:
- 序列比对:
MAFFT进行密码子比对 (ParaAT v.2.0)。 - Ka/Ks计算:
PAML(v.4.9) 中的codeml程序,使用one model。 - Tajima’s D计算:
VCFtools(v.0.1.16) 使用--TajimaD 1参数。
- 序列比对:
- 输入:
- NLR和非NLR基因中相同ID的编码序列。
- 注意事项:
- 该分析要求一个ID在至少四个物种中存在,以保证统计的稳健性。
- 更高的Ka/Ks值和更低的Tajima’s D值通常表明受到了更强的正选择或更弱的纯化选择。
通过以上三个模块的系统性分析,该研究构建了一个高质量的马铃薯NLRome,并从中获得了关于NLR进化、功能分化以及抗性工程的重要洞见。这套流程为其他物种的NLR基因研究提供了极佳的范本。
Nature文章的NLR分析方法
https://lixiang117423.github.io/article/naturenlr/