华命生物目前已成功完成60+物种的T2T基因组组装,物种涵盖动物、植物、昆虫及同源和异源多倍体等疑难物种,已有多个合作项目在顶级期刊发表和接收,欢迎有需要的老师垂询。联系方式:18371456025。
野生物种可为栽培作物提供宝贵的基因资源。然而,育性障碍和基因组资源的匮乏阻碍了作物和野生物种基因渗入的有效利用。数十年来,对大麦近缘野生种球茎大麦(Hordeum bulbosum)的研究,至今仍未促成携带其外源基因的栽培品种问世。
近日,多国科学家团队联合,在顶级期刊《Nature》上发表了题为“A haplotype-resolved pangenome of the barley wild relative Hordeum bulbosum”的研究论文,作者构建了球茎大麦首个泛基因组图谱,包含10个分型的基因组组装,涵盖32种不同的单倍型。为后续大麦的精准育种提供了宝贵的基因资源。
一、二倍体和四倍体参考基因组构建
作者首先对二倍体H. bulbosum个体FB19-011-3进行基因组测序组装。基于PacBio HiFi测序数据和Hi-C数据,获得了FB19-011-3高质量的二倍体分型参考基因组,组装总长度为6.78 Gb,contig N50达9.82 Mb。基于单花粉核测序构建的遗传图谱与基因组序列共线性一致。
研究团队进一步对四倍体个体FB19-028-3进行组装,组装获得的contig N50为7.7 Mb,Hi-C矩阵清晰显示出IBD单倍型分布,且未发现错误组装。使用5H染色体特异性荧光探针进行的FISH实验进一步证实了分型的准确性。
图1:二倍体和四倍体球茎大麦单倍型参考基因组构建
二、多样本基因组组装和注释
为全面表征球茎大麦的遗传多样性,研究团队基于260个样本的GBS数据PCA分析结果,挑选了3个二倍体和5个四倍体材料进行深度测序,最终获得32个高质量单倍型。所选样本覆盖了该物种从中亚至西地中海的完整分布区。此外,团队还对三个已用于构建渗入系(ILs)的供体材料(A17、A40、A42)进行了全基因组测序。
二倍体与四倍体基因组初始未分型大小为6.9-14.2 Gb,N50值介于6.4-17.0 Mb之间。局部高相似性虽然导致组装连续性降低或单倍型数量减少,但通过Hi-C矩阵仍成功实现了contig的单倍型分型。
采用多层级基因预测策略,各基因型的预测基因数量从二倍体PI365428的107,037个到四倍体FB19-028-3的238,246个不等。基于BUSCO Poales数据集的评估显示平均95.5%基因为完整拷贝,证实了注释结果的可靠性。
32个单倍型的基因排列顺序总体保守。全基因组比对发现存在>2 Mb的大规模倒位,但未检测到染色体间易位。其中最大的变异是FB19-028-3单倍型2特有的243 Mb倒位。FB19-011-3单倍型间的远端倒位与花粉测序揭示的重组抑制区高度吻合。另外全基因组范围内共检测到221,326,255个SNP和8,926,931个indel。
三、多维度泛基因组构建
为全面解析球茎大麦泛基因组的复杂性,作者采用三种创新性分析方法构建了多维度的球茎大麦泛基因组。
1. 单拷贝泛基因组分析:作者构建了两个层级的单拷贝序列集,单倍型层级为序列在单个单倍型中唯一(四倍体基因组中最多出现四次),而基因型层级是序列在所有单倍型中唯一存在。作者发现单倍型层级的泛基因组复杂度显著高于栽培大麦,另外同源四倍体中"单倍型可变但基因型核心"的序列丰度更高,证实四倍体对单倍型间PAV具有更强耐受性。
2.泛基因组图谱构建:作者采用Minigraph-Cactus流程构建泛基因组图谱。显示相较于单拷贝泛基因组,图谱复杂度显著提升,而且核心序列比例明显降低。
3.基因中心化分析:在基因型层面分类了112,327个正交同源群,其中核心基因组28,074个(954,739基因,55.67%),为所有基因型共有的保守基因,外壳基因组67,568个(501,602基因,29.25%),为部分基因型缺失的可变基因,而单一基因组258,525基因(15.07%),仅存在于单一基因型的特有基因。
图2:通过32个球茎大麦单倍型基因组构建泛基因组
四、基因组大小进化机制研究
作者比较了球茎大麦和栽培大麦基因组,发现球茎大麦基因组(FB19-011-3)约为栽培大麦(cv. Morex)的80%(3.14 Gb vs 3.70 Gb),主要归因于TE总量差异。TE组成特征显示,两者均以Copia和Gypsy超家族的LTR-RT为主,但局部TE分布存在显著差异。
TE空间分布也呈现特异性,球茎大麦远端区域相对更长,主要由于Gypsy元件更频繁插入,而栽培大麦近端区域的基因组扩张则无单一TE类别主导。
另外尽管基因组较小,但球茎大麦含更多完整LTR元件(61,916 vs 46,727),而且近30万年来Gypsy元件在球茎大麦近端区域插入更活跃。
图3:球茎大麦和栽培大麦基因组大小和TE演化
五、球茎大麦多倍化起源与演化研究
球茎大麦的独特之处在于同时存在二倍体和四倍体群体。通过整合32个泛基因组单倍型与263个GBS测序样本,作者构建了核基因与叶绿体基因系统发育树,发现球茎大麦至少有两次独立的多倍化事件:来自塔吉克斯坦的四倍体GRA2256-1约在1.5 Ma与希腊二倍体谱系分化,而希腊四倍体FB19-001-1则代表近期起源的独立多倍化事件。
群体遗传分析显示混合四倍体FB19-028-3基因组中,20.14%来自古老四倍体AHG,66.2%来自西地中海二倍体AHG,说明近期多倍化事件后的杂交在进化史上可能频繁发生。这些发现共同支持"球茎大麦四倍体至少两次独立起源"的假说,并为多倍体植物的适应性演化研究提供了新模式。
图4:球茎大麦多倍化事件的多次起源分析
六、栽培大麦-球茎大麦基因渗入特征解析
基于最新组装的球茎大麦(H. bulbosum)与栽培大麦基因组,作者升级了基因渗入图谱,发现1,085 Mb球茎大麦基因组区域至少一次渗入大麦背景,其中464 Mb区域在至少两个渗入系(ILs)中出现。
由于重组事件和NLRs优先分布于远端区域,65%的NLR抗性基因同源物位于被重复渗入的基因组区域,表明球茎大麦大部分抗性基因多样性可以被转移至栽培大麦。
作者进一步对10个渗入系进行PacBio HiFi contig级组装,发现JKI-5215渗入系(大麦cv. Igri背景)的3H染色体长臂32.1 Mb A17来源片段为单倍型3(近端6.6 Mb)与单倍型4(远端25.5 Mb)嵌合体,而IL 88渗入系的2H染色体也观察到类似重组事件。
基于球茎大麦单拷贝泛基因组与76个大麦基因组数据,作者同时开发了通用型球茎大麦鉴定标记区域,并利用渗入系组装验证标记可靠性。
图5:栽培大麦-球茎大麦基因渗入分析
七、Ryd4Hb基因座的基因组解析
作者基于泛基因组图谱分析发现,球茎大麦在Mlo和Ryd4Hb位点的单倍型多样性显著高于栽培大麦,Ryd4Hb区段NLR基因数量变异范围在球茎大麦为2-23个,而栽培大麦为 2-21个。其中典型三联结构域(CC-NB-ARC-LRR)基因数量为2-18个。
通过JKI-5215渗入系精细定位发现大麦cv. Morex中65.5 kb区间含2个NLR同源基因,渗入系中692.6 kb区间含16个NLR基因,其中4个具完整功能结构。其中关键候选基因Ryd4_NLR1与Ryd4_NLR5与小麦秆锈抗性基因Sr35同源,并且和大麦叶锈抗性基因Rph13存在共线性关系。
结语
本研究首次构建了球茎大麦泛基因组图谱,包含10个分型的基因组序列组装,涵盖32种不同的单倍型。研究发现,同源四倍体核型至少独立起源两次,并通过基因流与二倍体类型相互关联。大麦与球茎大麦分化后,转座元件的差异扩增导致了两者基因组大小的差异。作者进一步通过定位对病毒病原体的非寄主抗性,展示了该资源的应用价值,该抗性被定位到一个结构多样的多基因簇,该基因簇此前已被证实参与小麦和大麦的多种免疫反应。
作者提出,未来研究应探索利用已建立的渗入系作为受体亲本来丰富大麦单倍型多样性的可能性。通过这种方式,可以引导栽培大麦与球茎大麦染色体在已存在的球茎大麦染色质片段上发生交叉重组。新单倍型的成功渗入可以通过基于序列的基因分型或全基因组测序来确认。
华命生物全面汇总了动植物T2T基因组文章,上一期我们分享130+已发表的植物T2T基因组文献合集和30+已发表动物T2T基因组文献合集,我们不仅有按照时间顺序排列好的所有文献原文资料包,也贴心的整理了每篇文章的研究物种、测序策略、组装水平、基因组大小等内容,关注华命生物,后台回复关键词:华命交流群,扫码添加工作人员微信,发送单位+名字,管理员验证通过后拉入群聊获取文本全部资料~
华命生物产品服务一览
华命生物目前已开通微信公众号、抖音、知乎、B站、小红书等线上平台,欢迎感兴趣的老师扫码关注了解更多内容!