BLUP和BLUE

为何要计算 BLUE 值?

一年多点或者多年多点的植物数据中,一个基因型(品种)往往有多个表型数据,但只有一个基因型,在 GWAS 关联分析中,就需要一个基因型对应一个表型数据。

之所以有多个表型数据的原因:

  • 或者是多个重复
  • 或者是多个地点的数据
  • 或者是多个年份的数据

问题:如何计算得到一个表型数据呢?

解答:可以使用多个表型值的平均值,作为品种的表型值,现在有更好的方法:BLUE 值。

为何使用 BLUE 值?

一般,有两个选择,BLUE 值或者 BLUP 值,在 GWAS 中大都使用的 BLUE 值。

BLUE 和 BLUP 的区别:

  • BLUE 值是混合线性模型中固定因子的估计效应值
  • BLUP 值是混合线性模型中随机因子的估计效应值

BLUE 和 BLUP 的代表:

  • BLUE 值着重在于评估品种现在的表现
  • BLUP 值着重在于预测品种将来的表现

BLUE 和 BLUP 的方差变化

  • BLUE 只是对表型值根据地点,年份进行矫正,得到的数据和原来数据尺度一样
  • BLUP 值会对表型数据进行压缩

一年多点的数据,如何更好的计算 BLUE 值进行 GWAS 分析?

常规的方法,是将品种作为固定因子,将地点作为随机因子,计算品种的 BLUE 值,然后将其作为表型数据进行 GWAS 分析。这样是有作用的,起码比平均值要准确。

其实,还有更高级的模型,比如一年多点的数据,如果地点有重复(区组),可以将品种与地点互作考虑到模型中,这样计算出的 BLUE 值是排除基因与环境互作后的,更能代表品种的真值。

最后,还有更高级的玩法,比如一年多点的数据,默认的是方差齐次,如果不齐次就不能进行联合方差分析,这时候可以将设置残差异质,包括基因与环境互作的异质,这样通过不同模型的比较,选择最优模型,这时候计算的 BLUE 值才是最优的。

后面几章,会系统介绍一下一年多点数据如何计算 BLUE 值,分别是:

  • 一年多点数据,没有重复时,如何计算 BLUE 值?

  • 一年多点的数据,有重复时,进行联合方差分析计算 BLUE 值

  • 一年多点的数据,有重复时,通过设置残差异质以及互作异质,比较最优模型,计算 BLUE 值。


BLUP和BLUE
https://lixiang117423.github.io/article/blueandblup/
作者
李详【Xiang LI】
发布于
2024年8月7日
许可协议