白菜是禹氏三角模型中芸薹属Brassica的祖先二倍体物种,在较短的驯化历史中分化出大白菜、小白菜、菜心、芜菁和油菜等多种形态类型,表现出显著的形态和生理多样性。这种快速亚种分化和形态演化,使白菜成为研究作物驯化过程中基因组结构变异、泛基因组多样性及其与表型分化关系的理想模型物种。
河北农业大学赵建军课题组于2026年2月5日在国际著名期刊Science上发表标题为“Gapless pangenome analyses reveal fast Brassica rapa subspeciation”的研究性论文,通过构建白菜T2T级泛基因组,系统解析了着丝粒动态与结构变异驱动其快速亚种分化和形态演化的遗传基础。

一、11个代表性白菜的T2T基因组组装
研究首先对1720份白菜的不同亚种和形态类型的种质资源进行了平均26.1×深度的基因组重测序,并筛选11份具有代表性的材料开展T2T无缺口基因组从头组装。通过整合PacBio HiFi长读长数据(62.6×)、ONT超长读长数据(229.0×)、Hi-C数据(264.3×)以及MGI-T7短读长数据(60.1×),成功构建了覆盖全部端粒并包含110个完整着丝粒的T2T基因组。组装基因组大小介于426.54–446.60Mb之间,平均contigN50为46.36Mb,BUSCO完整度达99.28%,基因组QV平均为52.57,LAI接近或达到金标准水平,表明组装质量极高。重复序列约占基因组的58.26%,其中LTR反转录转座子最为丰富。每个基因组共注释46,603-48,562个蛋白编码基因,基因BUSCO完整度为98.80%,并新鉴定6992个此前未被注释的基因,同时系统注释了多类非编码RNA。

图1. 白菜的系统发育和T2T基因组组装
二、白菜中着丝粒的演化与多样化
本研究以CENH3结合区域为依据,对11份白菜基因组中的着丝粒进行了系统鉴定与比较分析。结果表明,每条染色体均仅包含一个显著富集CENH3的着丝粒区域,大小为0.58–2.20Mb,平均约1.16Mb。白菜着丝粒主要由176bp串联卫星序列CentBr1和CentBr2构成,其中CentBr2特异分布于A03和A05,其余染色体以CentBr1为主,并在近着丝粒区域广泛扩展。着丝粒区域基因极度稀少且转录活性普遍较低,CENH3结合与基因表达呈功能不相容特征。进一步鉴定出5种新型卫星序列,其在近着丝粒区域呈高度串联分布,并表现出显著的拷贝数变异。跨物种比较显示,这些卫星主要在白菜(AA)亚基因组中出现并扩增,在异源四倍体中更易保留,反映其在物种形成过程中的演化轨迹。共线性分析揭示着丝粒整体高度动态,但A10着丝粒结构高度保守,且邻近区域富集对生长和发育至关重要的功能基因,表明其结构稳定性可能与关键生物学功能密切相关。

图2.白菜和芸薹属的着丝粒和卫星序列
三、白菜多样化泛基因组学
基于31份白菜基因组,研究构建了以蛋白编码基因为基础的泛基因组,泛基因组分析表明,基因家族数量已趋于饱和,共鉴定出近4.8万个泛基因家族,其中约三分之一为在所有材料中高度保守的核心基因,其余为不同程度可变的软核心、可缺失及特异基因。与核心基因相比,作者发现可缺失基因和特异基因在基因长度、编码序列数量及选择约束方面显著降低,且表现出更高的Ka/Ks比值,指示其经历了更快的进化过程。进一步分析显示,不同亚种中富集的特异基因在其他芸薹属物种或拟南芥中缺失,且在功能上与形态建成、发育调控及农艺性状密切相关。总体而言,本研究表明,泛基因组层面的基因获得与丢失及快速进化的可变基因,为白菜的形态类型分化和亚种形成提供了重要的遗传基础。

图3. 31个白菜组装构建的泛基因组
四、结构变异与白菜形成及多样化的关联
本研究基于图结构泛基因组系统解析了白菜群体中的结构变异(SV)及其在亚种形成和形态多样化中的作用。共鉴定出27万余个SV,其中以存在-缺失变异(PAV)为主,绝大多数仅分布于少数材料,呈现显著的群体特异性。SV在染色体臂区和基因间区显著富集,而在外显子区较少,且与形态类型分化呈显著相关。进一步分析表明,SV与转座元件高度相关,提示转座元件可能在白菜结构变异的产生过程中发挥关键驱动作用。以古老亚种白菜作为外群推断SV起源发现,大量衍生型及亚种特异SV在群体中积累,支持其在白菜种分化中的重要贡献。基于pan-SV图结构的群体分析进一步将多种PAV与白菜、菜心等亚种的关键表型性状相联系,涉及叶球形成、根系发育及春化和开花调控等过程。综上结果表明,SV尤其是PAV的产生与积累,为白菜的形态类型分化和亚种形成提供了重要的遗传基础。

图4. 31个白菜基因组装中的遗传结构变异景观
五、BrLH1调控大白菜的叶球形成
本研究通过对1720份材料开展泛基因组范围关联分析,在染色体A07上鉴定到与大白菜叶球形成显著相关的关键基因BrLH1。该基因为单拷贝、无内含子基因,其多个非同义SNP单倍型与结球和不结球性状严格对应。功能分析表明,BrLH1功能缺失突变体表现为矮化且完全不结球,且导致蛋白提前截短的突变在F₂群体中与不结球表型完全共分离。进一步分析显示,BrLH1编码多C2结构域跨膜蛋白,并可与BrSUB相互作用,说明其可能通过调控细胞形态建成参与叶球形成。上述结果从泛基因组和遗传学层面确立了BrLH1在大白菜结球性状形成中的核心调控作用。

图5. BrLH1调控中国白菜的叶球形成
结语
该研究以白菜为模型,构建了目前最完整的端粒到端粒(T2T)无缺口泛基因组资源,解析其短期驯化过程中快速亚种分化与形态多样化的基因组基础。通过对1720份材料重测序及11份代表性材料的T2T组装,鉴定出6992个新基因、110个完整(近)着丝粒及5类新的卫星序列,构建了高质量的着丝粒与SV图谱,揭示卫星序列动态与着丝粒演化密切相关。基于图结构泛基因组分析,发现大量以存在-缺失变异(PAV)为主的SV,并鉴定出与白菜、菜心和芜菁分化相关的候选PAV。结合pan-GWAS与遗传验证,确定A07染色体上的关键基因BrLH1调控大白菜结球性。研究表明,卫星/着丝粒动力学与SV协同驱动白菜快速形态分化,并为育种提供重要资源。