BLUP和BLUE
为何要计算 BLUE 值?
一年多点或者多年多点的植物数据中,一个基因型(品种)往往有多个表型数据,但只有一个基因型,在 GWAS 关联分析中,就需要一个基因型对应一个表型数据。
之所以有多个表型数据的原因:
- 或者是多个重复
- 或者是多个地点的数据
- 或者是多个年份的数据
问题:如何计算得到一个表型数据呢?
解答:可以使用多个表型值的平均值,作为品种的表型值,现在有更好的方法:BLUE 值。
为何使用 BLUE 值?
一般,有两个选择,BLUE 值或者 BLUP 值,在 GWAS 中大都使用的 BLUE 值。
BLUE 和 BLUP 的区别:
- BLUE 值是混合线性模型中固定因子的估计效应值
- BLUP 值是混合线性模型中随机因子的估计效应值
BLUE 和 BLUP 的代表:
- BLUE 值着重在于评估品种现在的表现
- BLUP 值着重在于预测品种将来的表现
BLUE 和 BLUP 的方差变化
- BLUE 只是对表型值根据地点,年份进行矫正,得到的数据和原来数据尺度一样
- BLUP 值会对表型数据进行压缩
一年多点的数据,如何更好的计算 BLUE 值进行 GWAS 分析?
常规的方法,是将品种作为固定因子,将地点作为随机因子,计算品种的 BLUE 值,然后将其作为表型数据进行 GWAS 分析。这样是有作用的,起码比平均值要准确。
其实,还有更高级的模型,比如一年多点的数据,如果地点有重复(区组),可以将品种与地点互作考虑到模型中,这样计算出的 BLUE 值是排除基因与环境互作后的,更能代表品种的真值。
最后,还有更高级的玩法,比如一年多点的数据,默认的是方差齐次,如果不齐次就不能进行联合方差分析,这时候可以将设置残差异质,包括基因与环境互作的异质,这样通过不同模型的比较,选择最优模型,这时候计算的 BLUE 值才是最优的。
后面几章,会系统介绍一下一年多点数据如何计算 BLUE 值,分别是:
一年多点数据,没有重复时,如何计算 BLUE 值?
一年多点的数据,有重复时,进行联合方差分析计算 BLUE 值
一年多点的数据,有重复时,通过设置残差异质以及互作异质,比较最优模型,计算 BLUE 值。
BLUP和BLUE
https://lixiang117423.github.io/article/blueandblup/