Nature文章的NLR分析方法

《Nature》论文NLR基因分析方法深度解析

核心目标

本研究的核心生物信息学目标是,在52个马铃薯基因组(代表Solanum section Petota)中,进行全面且高度精确的NLR基因重新注释,构建一个综合性的“NLRome”,并基于此进行深入的比较基因组学和进化分析,最终指导功能基因的克隆和抗性工程。


分析模块一:NLR基因的重新注释 (Reannotation of Nucleotide-binding Resistance Genes)

分析目的
解决NLR基因因聚集分布(gene clusters)和高序列相似性导致的常规注释不准确问题。此流程旨在对特定基因组区域进行精细化的基因预测,以获得高质量的NLR基因模型。

1. 筛选包含NLR的基因组区域

  • 方法/软件: NLR-Annotator (v.0.7)
  • 参数: 默认参数 (default parameters)
  • 输入:
    • 基因组序列文件 (genome.fasta)
  • 输出:
    • 一个GFF3文件,标记了所有推定的NLR基因及其保守基序的位置。
  • 注意事项:
    • 此步骤是一个初步筛选,目的是缩小后续精细注释的范围,提高效率和准确性。
    • 原文指出,NLR-Annotator 倾向于漏掉RNL (RPW8–NB-ARC–LRR) 亚家族的NLRs,这是一个已知的软件局限性,需要在后续步骤中手动弥补。

2. 准备精细注释的输入证据

  • 目的: 为核心注释工具 MAKER 提供三种不同类型的证据,以确保预测的准确性。
  • 输入准备:
    • 基因组片段:
      1. 从第一步 NLR-Annotator 输出的GFF3文件中提取坐标。
      2. 在每个坐标的左右两侧各延伸2 kb (2-kb left and right flanking sequences)。
      3. 使用bedtools getfasta或类似工具,从全基因组中提取这些加长后的片段序列。
    • 同源蛋白证据 (Homology Evidence):
      1. 构建一个非冗余的NLR蛋白同源数据库。来源包括:
        • 先前研究中获得的7,007个氨基酸序列。
        • 拟南芥(Arabidopsis)的所有已知NLR基因(Araport11注释版本)。
        • 实验验证过的NLR基因数据库:PRGdb 3.0RefPlantNLR
      2. 将以上所有蛋白序列合并成一个FASTA文件。
    • 从头预测证据 (De Novo Gene Prediction):
      1. MAKER需要物种特异性的训练集。这些训练集来自于全基因组注释流程中为SNAP, AUGUSTUS, GeneMark-ET准备的模型。
    • 表达证据 (Expression Evidence):
      1. 使用全基因组的RNA-seq数据组装出的转录本序列 (assembled transcripts)。

3. 使用MAKER进行NLR基因模型注释

  • 方法/软件: MAKER
  • 输入:
    • 上述准备好的基因组片段同源蛋白证据从头预测证据表达证据
  • 输出:
    • 一个GFF3文件,包含了在输入片段上预测出的NLR基因的精确结构(外显子、内含子等)。
    • 对应的蛋白质序列和CDS序列FASTA文件。
  • 注意事项:
    • 这一步是整个注释流程的核心,通过整合多源证据,MAKER能够比常规注释流程更准确地界定NLR基因的边界和结构。

4. NLR基因的分类

  • 方法/软件: NLRtracker (v.1.01)
  • 输入:
    • MAKER输出的NLR蛋白质序列文件。
  • 输出:
    • 一个分类结果文件,将每个NLR基因根据其结构域(TIR, CC, NB-ARC, LRR)分为三大类和八个亚类。
      • 主要类别: TIR-NLR (TNL), CNL, NL
      • 次要类别: CNL, CN, CCX, TIR-NLR (TNL), TN, TX, NL, NBS

5. 手动补全RNL亚家族

  • 目的: 修正NLR-Annotator的系统性偏差。
  • 方法:
    1. 全基因组的蛋白质预测结果(而非仅在MAKER注释的NLR区域)中,通过关键词搜索或结构域鉴定(如HMMER搜索RPW8结构域)来识别RNL基因。
    2. 将手动识别出的RNL基因整合 (manually integrated) 到NLR-annotator-based的NLR预测集中。
  • 注意事项:
    • 这一步是确保NLRome完整性的关键补充。

6. 最终整合

  • 方法: 将最终得到的、高质量的NLR基因注释结果,整合回原始的全基因组基因注释文件中。

分析模块二:NLRome的构建与分析 (Construction and Analyses of the NLRome)

分析目的:
基于高质量的NLR注释,构建一个系统发育框架,对所有NLR基因进行分类、聚类,并研究它们的进化动态。

1. 构建NLR系统发育树

  • 方法/软件:
    • 序列提取: 使用HMMER (v.3.3.2) 提取所有NLR蛋白的NB-ARC结构域氨基酸序列,E-value阈值设为0.001
    • 多序列比对: MAFFT (v.7.490) 使用--auto参数。
    • 建树: RAxML (v.8.2.12)
      • 参数: -f a -x 5 -p 5 -# 100 -m PROTGAMMAJTT
      • Bootstrap: 100次。
      • 模型: 使用IQ-TREE (v.2.0.6) 的-m MF参数选择最佳氨基酸替换模型,结果为JTT模型。
  • 输入:
    • 所有预测出的NLR蛋白序列。
  • 输出:
    • 一个基于NB-ARC结构域的最大似然法系统发育树。

2. NLRome的聚类与分类

  • 方法:
    1. 手动聚类: 基于上述构建的系统发育树,手动将所有NLRs划分为489个clade。划分标准是“一个clade内的成员共享一个共同的祖先”。
    2. 超级家族分类: 依据系统发育树中的位置以及已报道的NLRs,将所有clade进一步归入6个超级家族 (super clades): RNLs, TIR-NLRs, CCG10-NLRs, CC-NLR-others, CC-NRC-helpers, CC-NRC-sensors
    3. Clade类型定义: 根据一个clade内最主要的NLR类型(CNL, TNL等),为该clade指定类型。
    4. 识别成对/成簇的NLRs: 如果一个clade中超过50%的成员是成对或成簇排列的,则该clade被定义为pairedclustered clade

3. 区分Type I 和 Type II NLRs

  • 方法:
    • 依据先前研究的标准(Kuang et al., 2004),基于系统发育树的分支长度 (branch length) 和物种间的等位/直系同源关系 (allelic/orthologous relationships) 来区分。
    • Type I: 分支长,拷贝数变化大,物种间呈旁系同源关系。
    • Type II: 分支短,拷贝数稳定,物种间呈直系同源关系。

分析模块三:非经典结构域(ID)的鉴定与进化分析

分析目的:
在NLRome中鉴定所有携带非经典整合结构域(Integrated Domains, IDs)的NLRs,并研究这些ID的进化起源和选择压力。

1. ID的鉴定

  • 方法/软件:
    • 使用pfam_scan.pl脚本对所有NLR蛋白进行结构域预测。
    • 过滤掉已知的NLR经典结构域(如NB-ARC, LRR, TIR, CC, RPW8等)。
    • E-value阈值设为0.05
    • 为避免注释错误,排除了那些只在一个NLR一个物种中出现的ID。
  • 输出:
    • 一个包含所有ID-NLRs及其携带的非经典结构域的列表。

2. 进化压力分析 (Ka/Ks 和 Tajima’s D)

  • 目的: 比较ID在NLR基因和非NLR基因中的进化选择压力。
  • 方法/软件:
    • 序列比对: MAFFT进行密码子比对 (ParaAT v.2.0)。
    • Ka/Ks计算: PAML (v.4.9) 中的codeml程序,使用one model
    • Tajima’s D计算: VCFtools (v.0.1.16) 使用--TajimaD 1参数。
  • 输入:
    • NLR和非NLR基因中相同ID的编码序列。
  • 注意事项:
    • 该分析要求一个ID在至少四个物种中存在,以保证统计的稳健性。
    • 更高的Ka/Ks值和更低的Tajima’s D值通常表明受到了更强的正选择或更弱的纯化选择。

通过以上三个模块的系统性分析,该研究构建了一个高质量的马铃薯NLRome,并从中获得了关于NLR进化、功能分化以及抗性工程的重要洞见。这套流程为其他物种的NLR基因研究提供了极佳的范本。


Nature文章的NLR分析方法
https://lixiang117423.github.io/article/naturenlr/
作者
李详【Xiang LI】
发布于
2025年10月30日
许可协议