TEL:18371456025

Nature Genetics | 陆地棉泛T2T基因组再发顶刊

棉花在全球农业和工业发展中具有重要地位,尤其是陆地棉已成为主要栽培种。尽管现代育种显著提升了产量和品质,但现有基因组资源局限于少数不完整参考,制约了对遗传变异和基因组结构的深入解析。

河北农业大学马峙英研究团队于2026年3月20日在著名期刊Nature Genetics上发表了标题为“A pangenome reference and population studies link structural variants with breeding traits in Gossypium hirsutum”的研究性论文,构建了高质量陆地棉T2T基因组和泛基因组资源,系统揭示了复杂结构变异的全景特征及其与纤维品质、产量和抗病等重要农艺性状的遗传关联。

 

 

一、构建T2T参考基因组及27个近T2T基因组

本研究以1,671份陆地棉种质资源为基础,从中组装获得28个代表性基因组,包括1个高质量T2T参考基因组NDM13和27个near-T2T基因组。通过整合PacBio HiFi、ONT超长读长、Hi-C和Illumina测序数据,成功构建了约2.29 Gb的T2T基因组,并将其锚定到26条染色体上,进一步解析了端粒、着丝粒和45S rDNA等复杂区域。与已有参考基因组NDM8相比,NDM13填补了全部组装缺口,新鉴定出93个基因,并显著提高了片段重复(SD)区域的解析精度。与此同时,其余27个近T2T基因组在完整性和准确性方面也表现出较高水平,整体组装质量与NDM13接近。

图1:NDM13的T2T基因组特征分析

表1:NDM13基因组组装总体概况及其与NDM8的比较

 

 

、基于基因的28个棉花泛基因组分析

本研究基于28个棉花基因组构建了基于基因的泛基因组,共鉴定出约8.5万个基因家族,其中约53%为所有基因组共享的核心基因,47%为可变基因以及少量私有基因。在每个基因组中平均注释到约7.99万个蛋白编码基因,且重复序列约占基因组的62.65%,其中以反转座子为主。进一步分析发现,蛋白编码基因在染色体末端区域显著富集,呈现明显的分布偏倚;随着纳入基因组数量增加,基因家族数在22个样本时趋于稳定,表明所选材料具有较好的代表性。表达分析表明,核心基因的表达水平显著高于可变基因和私有基因,且更多参与生殖过程和物质吸收;同时,大多数基因组中私有基因的表达水平也高于可变基因。作者还发现,大量核心基因在纤维组织中高表达,并主要富集于与纤维发育相关的基础生物过程。

图2:28份棉花材料的基于基因的泛基因组分析

 

 

三、端粒、着丝粒和rDNA的景观特征

研究进一步对28个棉花基因组的端粒、着丝粒和rDNA等复杂染色体区域进行了系统分析。结果显示,大多数染色体左右端粒长度基本一致,平均约11.4 kb,但不同染色体之间仍存在一定变异;同时,靠近染色体末端的基因表达水平更高。进一步研究发现,不同基因组间着丝粒的位置和长度存在明显差异,部分材料中出现约1 Mb的位置偏移或长度扩展,这些变化可能与着丝粒附近的倒位有关。表达分析表明,基因距离着丝粒越近,其表达水平越低。rDNA分析显示,每个基因组平均含有约236个45S rDNA,且在染色体上的分布明显不均,主要集中于少数特定染色体;相比之下,5S rDNA数量更多,并几乎全部分布在At09和Dt09染色体上。整体来看,棉花基因组在这些复杂区域表现出明显的结构差异和分布特征。

图3:棉花复杂基因组区域的景观特征及其分化

 

 

四、SD与CNV的结构与功能特征

本研究对28个棉花基因组中的片段重复(SD)和拷贝数变异(CNV)进行了分析。结果显示,SD序列平均占基因组的20.5%,显著高于人类,且绝大多数长度小于50 kb,以跨染色体分布为主,其总长度和数量均高于染色体内SD。作者进一步发现,A亚基因组中的SD明显多于D亚基因组,并主要富集于At06染色体。约10.86%的SD与基因区域重叠,其中多数可引起基因拷贝数增加或减少,表明SD与基因扩增和丢失密切相关。表达分析表明,SD区域基因的整体表达水平低于非SD区域,且沉默基因比例更高。与此同时,研究平均在每个基因组中鉴定到约1,929个CNV,包括拷贝增加和缺失两类,且多数为长度≥1 kb的变异,涉及大量基因。部分CNV可同时影响多个基因,导致不同材料间基因拷贝数及表达模式出现明显差异。整体来看,SD和CNV是影响棉花基因组结构及基因组成变化的重要变异类型。

图4:SD和CNV的全基因组分布模式

 

 

五、28个基因组中的SV谱系

本研究在28个棉花基因组中共鉴定四类结构变异(SV,≥30 bp),包括插入、缺失、倒位和易位,平均每个基因组约含7,746个,累计覆盖约258 Mb基因组序列。其中,插入与缺失数量基本均衡,反映了较高的组装质量;部分SV分布于基因本体及其临近区域,并与基因表达水平升高显著相关。作者进一步发现,SV在染色体上呈明显非均匀分布,共形成202个热点区域,这些区域了富集细胞壁代谢和抗病相关基因。除此之外,研究共检测到81个倒位,主要分布于特定染色体,且多数与SD相关,可导致基因数量增加或减少,其形成可能与非等位同源重组有关。研究还鉴定到664个易位,其中跨染色体类型占优势,约35%可导致新基因产生或基因丢失。整体来看,这些SV广泛参与了棉花基因组结构变异及基因组成变化。

图5:基于以 NDM13 为参考的27个基因组SV的推断及育种历史分析

 

 

六、现代育种过程中SV的分化特征

进一步比较了10个现代棉花品种与基础亲本Deltapine15和徐州209的SV,结果发现现代品种在纤维产量和品质上整体优于基础亲本。在所有现代品种中,作者分别鉴定到398个和433个与两亲本一致的SV,同时分别检测到7,211个和7,930个与亲本存在差异的SV。进一步分析表明,这些差异SV中有393个和47个分别与纤维品质和产量性状相关,其中部分变异位于关键基因上游或覆盖基因区域,可影响纤维长度和纤维强度。作者还发现,与两亲本相比,现代品种中分别存在6,677个和7,473个位于基因区或调控区的差异SV相关基因,其中约81%在至少一种组织中表达。这些基因主要富集于O-甲基转移酶活性、激素响应和UDP-葡萄糖-4-差向异构酶等功能。转录组分析进一步显示,现代品种相对Deltapine15有3,726个上调基因和3,267个下调基因,相对徐州209有3,756个上调基因和3,629个下调基因。

 

 

七、与重要性状相关的SV分型分析

本研究以NDM13为参考,整合27个棉花材料中的插入和缺失变异构建图谱型基因组,并对1,671份深度测序材料进行了SV分型,共鉴定30,840个SV,分型成功率达93.54%。其中,6,542个SV位于基因本体或调控区域,进一步筛选得到2,382个与纤维长度、纤维强度、马克隆值、铃重、衣分和籽指等性状显著相关的SV。结合5种棉铃和纤维形成相关组织的RNA-seq数据,作者发现其中1,027个SV与基因表达显著相关。典型例子是Dt06上MHCKBL基因上游196 bp缺失变异,可显著降低基因表达,并导致纤维长度缩短。进一步PCR验证和过表达实验表明,该变异是影响纤维长度的重要原因。基于30,840个大型SV和730,696个小型SV的GWAS还鉴定到2,768个与纤维品质、产量、开花期和黄萎病抗性相关的SV,其中Dt11上覆盖CRPK1的2,845 bp缺失与纤维强度显著相关。

图6:影响纤维长度(FL)和纤维强度(FS)的重要关联SV鉴定

 

 

 

结语

本研究基于1,671份陆地棉种质资源,构建了1个高质量T2T参考基因组和27个near-T2T基因组,建立了较为完整的陆地棉泛基因组和结构变异图谱。作者系统解析了端粒、着丝粒、rDNA、片段重复等复杂区域,鉴定了基因家族、拷贝数变异及多类型结构变异,揭示了棉花基因组在结构组成、基因分布和表达调控上的广泛差异。进一步结合群体分型、转录组和关联分析,研究将多个关键变异与纤维品质、产量及抗病等重要农艺性状联系起来,为陆地棉重要性状遗传解析和分子育种提供了重要资源。