水稻Pan-genome

5月28日凌晨,Cell在线发表了四川农业大学和遗传发育所合作的文章Pan-genome analysis of 33 genetically diverse rice accessions reveals hidden genomic variations。到实验室就开始研究文献。很巧的是,5月30日博士面试时有个老师问水稻研究的最新进展,刚好把这个文章内容给讲述一下。刚好在今天(6月1日),文章一作钦鹏教授做了一个线上讲座,认真聆听完以后收获颇丰,受益匪浅。结合文章和讲座内容,对文章进行简单梳理。

关于Pan-genome,上一个比较经典的工作是遗传发育所田志喜老师主持完成的大豆的Pan-genome,也是通过那篇文章首次了解到“图形基因组”这个概念。在水稻上已经有大量群体重测序的文章,比如经典的Rice 3K项目,以及14个野生稻重测序项目,其他零零散散的项目还有很多。这些之前开展的项目主要是基于二代测序完成的,二代测序在读长上有限制,单个read长度差不多在100bp到300bp之间,这种长度的数据对SNP的检测是没有问题的,但是很难检测到基因组上的结构变异。结构变异包括插入突变、缺失突变、倒位等。关于结构变异的长度,不同的文章的定义不同,通常是1kb-3Mb。随着三代测序的发展,能够实现长读长测序,数M长度的read极大地增加了结构变异检测的准确度。这篇文章里面的很多分析方法和思路很值得学习,还有图表制作也很值得学习。

材料选择

水稻种质材料千千万,改如何选择呢?这个研究选择的是32个具有代表性的亚洲栽培稻和1个非洲栽培稻。这些水稻品种在株高、穗型、穗粒数、粒宽和粒长等方面具有明显的差异。更重要的是这33个水稻品种都是各个亚群中具有代表性的品种。为什么要选一个非洲栽培稻呢?文章里面说这个非洲栽培稻是用来做外群的,便于检测亚洲栽培稻中的结构变异。之前的大量研究都是以Nipponbare作为参考的,这样的话呢就不能很好地区分那些结构变异到底是从哪来的,比如以Nipponbare为参考的话,某个结构变异在A这个品种中可能是插入突变,反过来想在Nipponbare中就是缺失突变,那到底是插入突变还是缺失突变呢?这时候就得有个外群做参考。选非洲栽培稻的另外一个原因是亚洲栽培稻和非洲栽培稻之间是独立驯化的,没有基因渗入。所以,好的项目是以好的材料为基础的。

结果解读

文章内容太多了,光讲座就是一个多小时,下面我选择性挑选一些我觉得比较有意思的结果进行简单的解读。

从下面这个图可以看到的是,在几种类型的结构变异中,插入变异的类型更多,这也就意味着亚洲栽培稻在进化和驯化的过程中,为了适应环境等意因素,会在基因组的特定位置上插入一些DNA片段,以此增强适应性。

之前水稻GWAS研究都基本是基于SNP的,这个研究中直接用结构变异做GWAS,检测到了两个之前用SNP没有检测到的位点。

下面这个图比较吸引我的地方在于,把转录组中FPKM按表达量进行划分,这样也能展示出基因转录表达变化的情况。当然,这个图主要表示的是那些附近存在结构变异的基因的转录表达对环境更敏感。

看到这个图的时候是很震惊的,具有有那么多基因存在拷贝数变异。基因拷贝数变异会直接影响该基因的转录表达。

其实这篇文章对我最有用的是他们开发的网站:

这个网站上暂时集成了文章中33个水稻品种的基因组序列、基因组注释文章、基因序列、蛋白序列、GO注释、KEGG注释等超级有用的信息。这些信息都是他们结果严格的注释得到的,我完全可以用在自己的数据分析上。我已经把33个品种的蛋白序列下载好,一共2822792条蛋白序列。现在正在把“月亮谷”蛋白序列Blast到这些序列上,下一步就可以把比对的结果和GO、KEGG等注释信息进一步完善,这样的话在后续分析转录组的时候就很方便了。

启发和体会

大数据时代,新的测序技术、分析手段、分析软件层出不穷,即使做不了开发着,也应该及时跟上步伐,了解新事物、新手段,不断完善自我框架。

💌lixiang117423@foxmail.com
💌lixiang117423@gmail.com


水稻Pan-genome
https://lixiang117423.github.io/article/10d84760/
作者
小蓝哥
发布于
2021年6月1日
许可协议