Nature文章的NLR分析方法

《Nature》论文NLR基因分析方法深度解析

本研究的核心生物信息学目标是，在52个马铃薯基因组（代表Solanum section Petota）中，进行全面且高度精确的NLR基因重新注释，构建一个综合性的“NLRome”，并基于此进行深入的比较基因组学和进化分析，最终指导功能基因的克隆和抗性工程。

分析目的：
解决NLR基因因聚集分布（gene clusters）和高序列相似性导致的常规注释不准确问题。此流程旨在对特定基因组区域进行精细化的基因预测，以获得高质量的NLR基因模型。

1. 筛选包含NLR的基因组区域

方法/软件: NLR-Annotator (v.0.7)
参数: 默认参数 (default parameters)
输入:
- 基因组序列文件 (genome.fasta)
输出:
- 一个GFF3文件，标记了所有推定的NLR基因及其保守基序的位置。
注意事项:
- 此步骤是一个初步筛选，目的是缩小后续精细注释的范围，提高效率和准确性。
- 原文指出，NLR-Annotator 倾向于漏掉RNL (RPW8–NB-ARC–LRR) 亚家族的NLRs，这是一个已知的软件局限性，需要在后续步骤中手动弥补。

2. 准备精细注释的输入证据

3. 使用MAKER进行NLR基因模型注释

4. NLR基因的分类

方法/软件: NLRtracker (v.1.01)
输入:
- MAKER输出的NLR蛋白质序列文件。
输出:
- 一个分类结果文件，将每个NLR基因根据其结构域（TIR, CC, NB-ARC, LRR）分为三大类和八个亚类。
  - 主要类别: TIR-NLR (TNL), CNL, NL
  - 次要类别: CNL, CN, CCX, TIR-NLR (TNL), TN, TX, NL, NBS

5. 手动补全RNL亚家族

目的: 修正NLR-Annotator的系统性偏差。
方法:
1. 在全基因组的蛋白质预测结果（而非仅在MAKER注释的NLR区域）中，通过关键词搜索或结构域鉴定（如HMMER搜索RPW8结构域）来识别RNL基因。
2. 将手动识别出的RNL基因整合 (manually integrated) 到NLR-annotator-based的NLR预测集中。
注意事项:
- 这一步是确保NLRome完整性的关键补充。

6. 最终整合

分析目的:
基于高质量的NLR注释，构建一个系统发育框架，对所有NLR基因进行分类、聚类，并研究它们的进化动态。

1. 构建NLR系统发育树

2. NLRome的聚类与分类

方法:
1. 手动聚类: 基于上述构建的系统发育树，手动将所有NLRs划分为489个clade。划分标准是“一个clade内的成员共享一个共同的祖先”。
2. 超级家族分类: 依据系统发育树中的位置以及已报道的NLRs，将所有clade进一步归入6个超级家族 (super clades): RNLs, TIR-NLRs, CCG10-NLRs, CC-NLR-others, CC-NRC-helpers, CC-NRC-sensors。
3. Clade类型定义: 根据一个clade内最主要的NLR类型（CNL, TNL等），为该clade指定类型。
4. 识别成对/成簇的NLRs: 如果一个clade中超过50%的成员是成对或成簇排列的，则该clade被定义为paired或clustered clade。

3. 区分Type I 和 Type II NLRs

方法:
- 依据先前研究的标准（Kuang et al., 2004），基于系统发育树的分支长度 (branch length) 和物种间的等位/直系同源关系 (allelic/orthologous relationships) 来区分。
- Type I: 分支长，拷贝数变化大，物种间呈旁系同源关系。
- Type II: 分支短，拷贝数稳定，物种间呈直系同源关系。

分析目的:
在NLRome中鉴定所有携带非经典整合结构域（Integrated Domains, IDs）的NLRs，并研究这些ID的进化起源和选择压力。

1. ID的鉴定

方法/软件:
- 使用pfam_scan.pl脚本对所有NLR蛋白进行结构域预测。
- 过滤掉已知的NLR经典结构域（如NB-ARC, LRR, TIR, CC, RPW8等）。
- E-value阈值设为0.05。
- 为避免注释错误，排除了那些只在一个NLR和一个物种中出现的ID。
输出:
- 一个包含所有ID-NLRs及其携带的非经典结构域的列表。

2. 进化压力分析 (Ka/Ks 和 Tajima’s D)

目的: 比较ID在NLR基因和非NLR基因中的进化选择压力。
方法/软件:
- 序列比对: MAFFT进行密码子比对 (ParaAT v.2.0)。
- Ka/Ks计算: PAML (v.4.9) 中的codeml程序，使用one model。
- Tajima’s D计算: VCFtools (v.0.1.16) 使用--TajimaD 1参数。
输入:
- NLR和非NLR基因中相同ID的编码序列。
注意事项:
- 该分析要求一个ID在至少四个物种中存在，以保证统计的稳健性。
- 更高的Ka/Ks值和更低的Tajima’s D值通常表明受到了更强的正选择或更弱的纯化选择。

通过以上三个模块的系统性分析，该研究构建了一个高质量的马铃薯NLRome，并从中获得了关于NLR进化、功能分化以及抗性工程的重要洞见。这套流程为其他物种的NLR基因研究提供了极佳的范本。

生物信息学

#生物信息学

Nature文章的NLR分析方法

https://lixiang117423.github.io/article/naturenlr/

作者

李详【Xiang LI】

发布于

2025年10月30日

许可协议