关于FPKM和TPM
FPKM(Fragments Per Kilobase of transcript per Million mapped reads)和TPM(Transcripts Per Million)都是RNA-seq数据中用于标准化基因表达量的指标,它们有以下区别和联系:
主要区别
计算顺序不同:
- FPKM:先按测序深度标准化,再按基因长度标准化
- TPM:先按基因长度标准化,再按测序深度标准化
数学表达:
- FPKM = (Fragment count × 10⁹) / (基因长度 × 总mapped reads数)
- TPM = (Fragment count / 基因长度) × 10⁶ / (所有基因的 Fragment count/基因长度 之和)
样本间比较性:
- FPKM:不同样本的FPKM总和可能不同,样本间比较存在偏差
- TPM:每个样本的TPM总和都等于1,000,000,样本间更具可比性
主要联系
- 相同目的:都是为了消除基因长度和测序深度对表达量的影响
- 相关性强:同一样本内,FPKM和TPM高度相关
- 适用场景:都适用于转录组测序数据分析
- 转换关系:可以通过公式相互转换
应用建议
- 样本内比较:FPKM和TPM都可以使用
- 样本间比较:推荐使用TPM,因为其标准化特性更好
- 差异表达分析:通常使用原始counts数据配合DESeq2等工具
- 功能富集分析:可以使用TPM作为表达量指标
总的来说,TPM在多样本比较中更具优势,是目前更推荐的标准化方法。
关于FPKM和TPM
https://lixiang117423.github.io/article/fpkm-tpm/