棉属物种多样,其中陆地棉是全球最重要的纤维作物。然而,长期的现代育种导致其遗传基础日益狭窄,限制了进一步改良潜力。与此相比,棉花野生材料仍保存着丰富的遗传变异,但相关多样性一直缺乏系统解析。由于传统短读长测序难以准确识别结构变异和基因渗入事件,棉花的进化与驯化历史尚不清晰。泛基因组研究为全面解析基因组多样性提供了有效途径,为深入理解棉花演化并指导育种改良奠定了基础。
中国农业科学院棉花研究所团队于2026年1月2日在国际著名期刊Nature Genetics上发表了一篇标题为“Graph pan-genome illuminates evolutionary trajectories and agronomic trait architecture in allotetraploid cotton”的研究性论文,通过构建覆盖野生到栽培连续谱系的棉花图形泛基因组,系统揭示了异源四倍体陆地棉的结构变异、基因渗入与性状遗传基础,从而深化了对棉花进化、驯化及育种改良机制的认识。

一、107份棉花材料的从头基因组组装
研究对107份陆地棉材料开展了高质量从头基因组组装,涵盖栽培与半野生类型,系统解析了陆地棉的基因组结构与遗传多样性。基于PacBio HiFi测序和Hi-C技术,获得了染色体级别、高连续性和高完整性的基因组,基因组大小约为2.30-2.36 Gb,超过99%的序列成功锚定到染色体。结果显示,陆地棉基因组中约70%为重复序列,主要由LTR反转座子构成,不同家族在染色体分布和插入时间上存在显著差异。泛基因组分析表明,基因家族在约70个基因组时趋于饱和,可变和特有基因占较高比例,反映出丰富的遗传可塑性。比较分析显示,驯化选择改变了基因家族组成,可能导致半野生种质遗传多样性下降和栽培棉中稀有等位基因积累。
二、染色体易位区分陆地棉多样性
基于结构变异分析与图形泛基因组方法,研究发现A03与A09染色体之间存在一次显著的相互易位,该易位使部分地方品种呈现出不同于其他陆地棉材料及相关异源四倍体棉物种的独特染色体构型。Hi-C数据、长读长序列比对以及荧光原位杂交等多种独立证据一致验证了该易位事件的真实性与稳定性。进一步结合系统发育分析和群体遗传学结果表明,该易位起源于野生群体,并主要扩散于加勒比海沿岸的地方品种,而在中美洲地方品种及现代栽培棉中则基本缺失。因此,该染色体易位成为区分陆地棉两大主要遗传多样性中心的重要标志。

图1:通过易位和倒位揭示的陆地棉起源和驯化的基因组信息
三、结构变异揭示驯化与改良的遗传特征
进一步研究发现,多条染色体上的大倒位主要存在于野生型和半野生地方品种中,而在现代栽培棉中基本缺失,表明这些结构变异在驯化过程中被丢失或受到负向选择,可作为区分原始种质与栽培种质的重要遗传标记。基于这些倒位及A03-A09染色体易位,陆地棉材料被划分为多种结构变异单倍型,其中栽培棉几乎全部集中于单一“栽培型”单倍型,而野生群体和地方品种则保留了高度丰富的单倍型多样性。地理分布分析表明,这些野生型和地方品种单倍型主要起源并分化于尤卡坦半岛北部,随后向中美洲其他地区扩散,并在危地马拉东部形成次级多样性中心。进一步分析显示,不同倒位在形成时间和选择强度上存在差异,部分倒位与开花期等驯化相关性状显著关联,说明结构变异在陆地棉的进化分化和栽培适应过程中发挥了关键作用。
四、海岛棉向陆地棉的基因渗入
基于泛基因组分析,作者在107个陆地棉基因组中共鉴定出209个来自海岛棉的渗入区域,表明两者在中美洲和加勒比地区存在广泛的基因流动。渗入片段呈现明显的空间分布特征,大尺度片段主要集中于着丝粒区域,而较小片段多位于染色体臂,可能与重组率差异有关。相比栽培棉,半野生和野生陆地棉保留了更长的渗入片段,这说明驯化过程中部分渗入序列受到选择清除。渗入基因普遍具有表达活性,并富集 cis-eQTL,显示其潜在功能价值。A01和A06染色体上的两个大尺度渗入事件在多个单倍型中分布广泛,系统发育分析表明加勒比地区的海岛棉可能是主要供体。而A06渗入片段在现代栽培棉中仍被保留,并与倒位INV4共存,携带该渗入的单倍型表现出更早的开花时间,表明基因渗入为陆地棉的环境适应和改良提供了有利遗传变异。

图2:来自海岛棉的大片段基因渗入丰富了陆地棉的基因库
五、抗病基因家族变异与棉花育种
研究发现,棉花基因组中的大量存在-缺失变异在基因组中分布不均,并显著富集于编码抗病蛋白的NLR基因区域,这表明这些变异在棉花应对病原压力中起着关键作用。与野生和半野生棉相比,栽培棉中的NLR基因数量和多样性显著降低,反映了驯化过程中抗病遗传多样性的流失。大部分NLR基因以串联簇的形式存在,其中高度变异的基因簇富集了可变基因,表现出更强的进化潜力和适应性。PAV-GWAS分析不仅验证了已知的黄萎病抗性位点,还在D11染色体上识别出了一个新的关键抗性位点,候选基因N244D11G036580与抗性差异密切相关。群体层面的分析显示,这些抗性位点在黄河流域显著富集,且新培育的棉花品种整体抗病性持续增强,表明抗病基因变异正在被育种过程中有效整合,同时,病原压力仍在持续影响抗病基因的演化。

图3:超级图形泛基因组中的全范围NLR构建
六、PAV-GWAS揭示纤维品质中被遗漏的QTL
本研究利用PAV-GWAS系统解析了棉花纤维品质相关的遗传基础,揭示了传统SNP分析难以捕获的重要QTL。基于419份材料,共鉴定出69个与纤维品质和衣分相关的PAV-QTL,其中绝大多数为新发现。结果表明,部分PAV通过调控基因表达直接影响衣分性状,并在育种过程中受到人工选择。单倍型分析进一步发现,尽管某些单倍型具有较低衣分,但其对黄萎病的较强抗性使其在现代品种中频率持续上升,反映了抗病育种对纤维性状的间接塑造作用。此外,在A07染色体上鉴定到一个同时影响纤维强度和种子大小的多效性PAV,其候选基因在传统GWAS中未被识别,功能验证表明该基因可促进种子发育。

图4:PAV-GWAS比 SNP-GWAS 更能有效揭示性状背后的遗传基础
七、图形泛基因组在棉花育种中的应用
作者进一步探讨了棉花基因组中的PAV和大尺度染色体倒位对重要农艺性状的影响,研究发现,PAV 区域内的基因大多数仅在部分材料中存在,且其表达普遍较低,但其中包含若干关键功能基因。例如,来自远缘杂交材料的 CesA7 基因与纤维长度和强度显著相关,凸显了 PAV 在优质纤维性状形成中的作用。此外,多个大尺度倒位影响了棉花的分化,限制了基因重组,并与抗虫性和纤维颜色等性状密切关联。特别是一个 3.9 Mb 的倒位与叶片毛状体密度增加相关,且其包含的关键基因与其他基因连锁,这说明育种选择时可能面临连锁累赘风险。研究还揭示,纤维颜色相关的 Lc1 位点及其控制基因 GhTT2 受倒位影响,不同的倒位结构导致基因表达的差异,从而决定了纤维颜色的变化。整体而言,基因组结构变异是影响棉花重要性状的关键因素,且为分子育种提供了重要参考。

图5:基于图形泛基因组的大规模倒位图谱
结语
本研究通过构建详细的图形泛基因组,深入揭示了陆地棉在起源、驯化及农业性状演化过程中的基因组变化。研究发现,棉花基因组中存在多种大规模结构变异,这些变异在抗病性、纤维性状等方面显著影响了棉花的遗传多样性。此外研究还揭示了大量外源基因渗入,尤其是来自海岛棉的基因流动,这些基因增强了栽培棉的基因库和适应性。PAV-GWAS分析进一步揭示了与纤维质量、开花时间等重要性状相关的新遗传位点,为棉花育种提供了新的靶标。通过结合大规模倒位图谱和PAV数据,为棉花的适应性进化及育种策略的优化提供了重要的理论依据。