TEL:18371456025

NG重磅|黄瓜图形泛基因组解析SV进化动态

结构变异是基因组多样性的关键组成,对基因组结构、功能及表型进化具有重要影响,但因其复杂性长期研究不足。随着测序技术进步,图形泛基因组为系统解析SV提供了新路径。聚焦黄瓜SV的群体动态与进化机制,有助于揭示其在驯化改良中的作用。

康奈尔大学及北京市农林科学院研究团队于2026年2月10日在国际著名期刊Nature Genetics上发表标题为“Graph-based pangenome reveals structural variation dynamics during cucumber breeding”的研究性论文,构建了黄瓜图形泛基因组并完成大规模SV鉴定与群体分型,系统分析其在驯化、地理扩张和基因渗入中的动态,并评估SV负荷在基因组预测中的应用潜力。

 

 

一、高质量参考基因组的组装与注释

为系统揭示黄瓜的遗传多样性,研究选取27份野生型、西双版纳型和栽培型材料开展PacBio HiFi测序,成功构建染色体水平的参考级基因组。共获得318.5 Gb高质量数据,组装基因组大小为259.1-302.1 Mb,平均286.8 Mb,contig N50平均为16.26 Mb,95.7%的序列被锚定至7条染色体。多种评估结果表明组装质量较高,BUSCO完整性达98.36%,Merqury评估完整性为97.9%,QV均超过60,LAI平均13.38,达到参考级标准。基于组装共预测约2.18万个蛋白编码基因,重复序列平均占48.82%。整体质量达到或优于已报道的染色体水平基因组。

 

 

二、基于基因的泛基因组

本研究整合27个新组装基因组和12个已报道的染色体水平基因组,在统一重新注释的基础上构建了基于基因的泛基因组,共鉴定27,779个基因家族。随着纳入基因组数量增加,泛基因规模在约25个基因组时趋于稳定,表明在当前分析范围内新增基因家族数量已明显减少。在39个基因组中,核心、软核心、可变和特有基因簇分别占53.47%、11.97%、28.31%和6.25%。核心基因的核苷酸多样性和Ka/Ks值较低,主要参与转录调控、mRNA加工和蛋白泛素化等基础生物学过程;可变和特有基因则主要富集于代谢调控与胁迫响应等功能。系统发育分析表明黄瓜起源于印度,随后传播至中国西南并扩散至全球。基因组间整体宏观共线性较为保守,但在4、5和7号染色体上存在显著的大尺度结构重排。

图1:野生及栽培黄瓜的泛基因组

 

 

三、图形泛基因组与SV基因分型

本研究基于39个高质量染色体水平基因组构建了黄瓜图泛基因组,鉴定出171,892个非冗余SV,其中32.49%来源于转座元件,约5.09%的SV与基因区域发生重叠,共涉及19.5%的蛋白编码基因。作者利用PanGenie对414份重测序材料进行SV分型,并结合组装数据获得443份材料的SV基因型信息。

研究表明,不同群体间SV数量和长度差异显著,野生群体SV最为丰富。作者进一步鉴定出7,517个与驯化相关和5,539个与改良相关的SV,影响多种关键基因。系统发育及群体遗传分析显示,黄瓜起源于印度并向外扩散,在全球范围内分化,SV与SNP在群体分化和核苷酸多样性指标上高度相关。

图2:黄瓜中的结构变异检测与基因分型

 

 

四、黄瓜驯化与改良过程中的SV动态

系统发育与群体历史分析表明,地方品种约在5200年前由野生群体分化,栽培品种约在3400年前进一步分化。驯化过程经历相对温和的遗传瓶颈,而栽培阶段出现更严重的瓶颈,随后有效群体大小逐步恢复;西双版纳群体为独特谱系,未对栽培黄瓜作出遗传贡献。

位点频率谱分析显示,驯化和改良过程中变异多集中于低频或高频,反映遗传漂变增强。与SNP相比,SV更偏向低频分布、固定比例较低,且在各群体中显著不同,表明其更可能具有有害效应。适应度效应分析进一步表明,SV在各群体中均受到更强的纯化选择,强烈有害SV更易被清除,而部分轻微有害的非同义SNP则可能积累。适应性变异比例从野生到栽培逐渐增加,且主要由SNP驱动,说明黄瓜驯化主要通过选择有利SNP并清除有害SV实现遗传改良。

图3:黄瓜驯化与改良过程中的SV动态

 

 

五、黄瓜扩张过程中的SV演化动态

研究基于迁移路线分析了黄瓜地理扩张过程中SV负荷的变化,结果表明随着黄瓜由印度向外扩散,SNP和SV遗传多样性持续下降,扩张边缘群体(如西双版纳)最低,暗示其存在扩张负荷。作者发现,驯化与扩张过程中轻度有害的非同义SNP(nSNP)突变负荷显著增加,地方品种较野生群体提高0.44%,栽培品种进一步升高,支持“驯化代价”假说,并与有效群体大小下降及遗传漂变增强有关。相反,SV负荷在扩张过程中显著降低,插入和缺失在地方品种和栽培品种中均明显减少,高影响SV未表现出扩张负荷迹象,说明其持续受到纯化选择清除。年龄分布分析进一步表明,SNP整体较为古老,而SV相对较新且更易被清除。总体来看,扩张过程中轻微有害SNP趋于积累,而有害SV则被更有效清除,纯化选择在塑造黄瓜基因组结构中发挥关键作用。

图4:不同黄瓜群体中SV负荷的时空分布特征

 

 

六、黄瓜基因渗入过程中的SV动态

研究利用Treemix和ABBA-BABA方法分析黄瓜基因渗入格局,检测到野生黄瓜向欧洲和非洲群体的显著基因流,分别鉴定出14个和13个基因渗入区域,涉及1,000余个基因。欧洲群体6号染色体的强信号区域包含CBL互作蛋白激酶基因,非洲群体3号染色体区域含小麦抗病基因Lr10同源基因,表明野生种遗传资源对抗逆与抗病改良具有重要意义。作者进一步比较基因渗入与非渗入区域的位点频率谱,发现基因渗入区域固定等位基因比例较低,但nSNP和SV相对于同义SNP的衍生等位基因比例显著升高,说明基因渗入可能增加有害负荷。该现象可能源于连锁拖拽,使野生群体中的低频有害变异在栽培群体中趋于固定,非洲群体中亦呈现相同模式。

图5:黄瓜中的适应性基因渗入

 

 

七、引入SV负荷可提高基因组预测精度

本研究在374份黄瓜核心种质中评估了SV负荷对基因组预测的作用。21个性状中有4个与SV负荷显著相关,其中幼果形状、成熟果形和果实弯曲度与SV负荷显著负相关,空心果显著正相关。基线模型中,SNP的预测效果优于SV,联合SNP和SV也未明显优于SNP单独使用,可能由于两者存在连锁。加入SNP负荷未提升预测精度,而加入SV负荷则显著提高上述4个性状的预测准确率,增幅分别为19.36%、4.51%、13.57%和8.22%。在仅含SV或联合模型中加入SV负荷同样改善预测效果;同时加入SNP与SV负荷未优于仅加入SV负荷。对其余17个与SV负荷无关的性状未观察到显著提升,表明SV负荷对特定性状的预测具有独立且重要的贡献。

图6:加入SV负荷信息的基因组预测

 

 

结语

本研究基于39份参考级基因组构建黄瓜图泛基因组,鉴定17万余个结构变异(SV),并在443份材料中完成群体分型,系统揭示SV在驯化、地理扩张与基因渗入过程中的演化动态。结果表明,驯化阶段适应性进化主要由SNP驱动,自然选择倾向保留有利SNP并清除有害SV;地理扩张过程中,边缘群体积累轻度有害nSNP,而SV负荷整体下降,表明其受到更强的净化选择。野生向非洲和欧洲群体的基因渗入虽引入有利等位基因,但也通过连锁效应增加了有害变异负担。进一步分析发现,SV不仅影响群体遗传结构,还与部分关键农艺性状显著相关;将SV负荷纳入基因组预测模型可显著提升相关性状的预测精度,为精准育种提供理论与方法依据。