甘蔗是重要的基础性经济作物,约在2000年前即推动了早期制糖技术的发展,并在近代通过全球贸易深刻影响了人类社会。当前,甘蔗是全球食糖和乙醇生产的主要原料,种植遍及90多个国家,具有极高的经济价值。现代甘蔗起源于甜根子草Saccharum spontaneum与栽培甘蔗Saccharum officinarum的杂交及反复回交过程,形成了高度复杂的多倍体和非整倍体基因组,其染色体主要来源于栽培甘蔗。
广西大学张积森研究团队于2025年1月3日在国际著名期刊Nature Genetics上发表了标题为“The highly allo-autopolyploid modern sugarcane genome and very recent allopolyploidization in Saccharum”的研究性论文,本研究完成了现代甘蔗的高质量基因组组装与多倍化演化机制解析,揭示了其亚基因组结构、育种历史及性状遗传基础,为甘蔗基因组改良与分子育种提供了关键理论与基因资源。

一、XTT22的基因组装与亚基因组分型
为指导基因组组装,作者首先对现代甘蔗品种XTT22进行核型分析,在细胞学层面共观察到111条染色体,并划分为10个同源群,不同同源群间染色体数目存在明显差异,反映出其高度多倍体和非整倍体的基因组特征。部分染色体呈现断裂、臂融合及缺失等结构变异,这些特征与甜根子草基本染色体数由10向8演化的过程一致,表明其起源早于现代杂交事件。在此基础上结合PacBio HiFi测序、Illumina测序及Hi-C辅助组装,对XTT22基因组进行了染色体水平构建。通过比较不同组装策略的质量及与近缘物种的共线性,选用优化后的组装结果并进行多轮人工校正,最终构建得到97条染色体,总长度约8.8 Gb,95.25%的基因组序列成功锚定到染色体上。
通过物种特异性 k-mer 分析,对甘蔗杂交种 XTT22 的基因组来源进行了系统划分,结果显示其基因组主要来源于栽培甘蔗,占约75.73%,其次为甜根子草,占17.92%,另有少量序列来源不明确。染色体层面的分析进一步表明,XTT22 中既包含来源于栽培甘蔗和甜根子草的完整染色体,也存在大量由两者重组形成的染色体,反映出现代甘蔗基因组显著的杂交和重塑特征。上述亚基因组划分结果得到了测序覆盖度分析及物种特异性探针分布的相互验证。

图1. 甘蔗XTT22基因组解析

图2:XTT22 单倍型基因组的基因组特征
二、等位基因的定义和剂量分析
全基因组共注释获得348,860个蛋白编码基因模型,其中大多数基因以多拷贝形式存在,体现出现代甘蔗基因组显著的多倍化特征。等位基因来源分析表明,约70.9%的基因主要继承自栽培甘蔗的遗传背景,约27.3%来源于甜根子草,表明现代甘蔗基因组在长期杂交和回交过程中带有明显遗传偏向性。进一步的等位基因剂量分析发现,源自栽培甘蔗的基因在现代甘蔗基因组中平均保留更多拷贝,而源自甜根子草的基因拷贝数相对较低,仅有极少数出现异常高拷贝,这可能与同源染色体交换或基因转换等后期基因组重塑事件有关。
三、亚基因组表达优势
在现代甘蔗XTT22中,两个来源不同且不平衡的亚基因组表现出显著的表达优势差异。以最近缘二倍体物种蔗茅Erianthus rufipilus为参考,作者发现Soₕ 亚基因组的基因保留率高于 Ssₕ 亚基因组,这一差异在HG1中尤为明显。跨12种组织共鉴定到20,030对亚同源基因,表达分析显示Soₕ 亚基因组在整体转录水平上显著占优为63.3%,而 Ssₕ 亚基因组为36.7%。具有更多等位基因拷贝的基因通常表现出更高的表达水平,在亚同源基因对中,等位基因数量较多的亚基因组更倾向于表现出表达优势。
四、亚基因组间基因表达模式
通过对栽培甘蔗和甜根子草在12种组织中的基因表达系统分析发现,现代甘蔗中 Soₕ 和 Ssₕ 两个亚基因组的整体表达水平均低于各自亲本物种,其中 Ssₕ 亚基因组的下降更为显著。两个亚基因组之间的表达相关性达到0.87,高于亲本基因组之间的相关性,表明杂交后亚基因组在转录层面趋于协调。进一步分析显示,约43%的基因在两个亚基因组中保持高度保守的表达模式,而约10%的基因表现出明显的表达分化。此外,Soₕ 亚基因组中与栽培甘蔗表达模式高度相似的基因比例高于 Ssₕ 亚基因组与甜根子草的对应比例。上述结果表明,现代甘蔗在近期异源多倍化之后,其亚基因组间的基因表达模式整体上呈现出由差异向相似演化的趋势。

图3:同源基因的表达分歧
五、叶片梯度与昼夜节律中的基因表达
为解析异源多倍化对光合作用相关表达调控的影响,分析了现代甘蔗在叶片发育梯度及昼夜节律条件下的转录组特征。在栽培甘蔗、甜根子草及现代甘蔗两个亚基因组中分别鉴定到数千个具有节律性表达的基因。比较结果显示,Soₕ 亚基因组的表达模式与栽培甘蔗更为接近,而 Ssₕ 亚基因组相对于甜根子草表现出更大的表达分化。进一步采用动态时间规整方法分析发现,现代甘蔗两个亚基因组之间的表达相似性高于其与各自亲本物种之间的相似性,表明近期异源多倍化促进了亚基因组间表达模式的趋同变化,其中甜根子草来源亚基因组的表达重塑程度更为显著。

图4:甘蔗关键生物特性的比较
六、超亲分离的遗传基础
针对甘蔗中普遍存在的超亲分离现象,研究进一步系统解析了叶长和叶宽性状的遗传基础。对192个自交后代进行测序并构建高密度遗传图谱后发现,叶长和叶宽均具有较高的广义遗传力,且后代表型显著超越亲本XTT22。通过QTL定位共鉴定到49个与叶片大小相关的数量性状位点,其中多数来源于栽培甘蔗遗传背景,少部分来源于甜根子草,并存在跨环境稳定或同时影响叶长和叶宽的共定位QTL。在这些QTL区域内进一步筛选得到多个人选基因,涉及激素响应和生长素运输等调控通路,其中既包括促进叶片扩大的正调控因子,也包括抑制叶片生长的负调控因子。
七、NAL1的功能验证
功能分析表明,NAL1 在甘蔗叶片发育和株型调控中发挥关键作用。与甜根子草相比,栽培甘蔗叶片明显更大,且 NAL1 在栽培甘蔗中的表达水平显著更高。通过在水稻中进行功能互补实验发现,栽培甘蔗来源的 SoNAL1 能显著促进叶片伸长和增宽,但同时伴随光合效率的下降。激素分析进一步显示,无论是在 SoNAL1 转基因植株还是在栽培甘蔗中,吲哚-3-乙酸和茉莉酸水平均低于甜根子草,表明 NAL1 可能通过调控激素水平影响叶片大小和光合作用效率。上述结果共同表明,NAL1 是连接激素调控、叶片形态建成与光合作用的重要调控因子,对甘蔗株型优化具有重要意义。

图5:基于高密度遗传连锁图谱的甘蔗叶片长度和宽度性状的遗传基础分子特征研究
八、甘蔗种质资源的群体基因组学分析
基于等位基因分辨率的XTT22参考基因组,对310份甘蔗属材料开展群体基因组学分析,共鉴定到大量SNP和插入缺失变异,系统发育分析和主成分分析一致地将甘蔗杂交种、栽培甘蔗和甜根子草清晰区分。群体结构分析表明,现代甘蔗杂交种中来自栽培甘蔗的遗传成分高于甜根子草,且多项基因组证据支持甘蔗杂交种与栽培甘蔗构成姐妹群,说明栽培甘蔗对现代甘蔗的遗传贡献更大。遗传多样性分析显示,甜根子草具有最低的连锁不平衡衰减和Tajima’s D值,提示其未经历明显的人工选择。当K=4时,甘蔗杂交种可进一步划分为两个主要类群,这两个类群在蔗糖和纤维相关性状上表现出显著差异,反映了不同遗传组成及育种选择历史对性状形成的影响。

图6:310个甘蔗杂交种及两种甘蔗创始物种的系统发育关系
九、蔗糖相关性状的遗传变异基础
现代甘蔗的蔗糖含量在长期育种过程中形成显著差异,其最大积累能力和生长动力学存在变异。对八个蔗糖相关性状的分析表明,糖分性状与纤维性状之间存在显著负相关关系,并形成两个明显的性状聚类。种间 k-mer 分析显示,大多数现代甘蔗基因组由 70-80% 的栽培甘蔗成分组成,其比例升高与高糖、低纤维性状显著相关,表明多个基因成分以加性效应共同调控蔗糖含量。
全基因组关联分析共鉴定出 119 个与蔗糖相关的重要位点,其中第 10A 号染色体上的两个 SNP 在多个性状中表现出显著关联,并形成三种单倍型。有利单倍型 Hap1 在现代甘蔗杂交种中显著富集,表现为高糖、低纤维特征,其在育种过程中受到选择。共线性分析表明,该关键基因来源于甜根子草,但在栽培甘蔗中缺失。此外,第 9F 号染色体上与 WAT1 相关的 SNP 影响茎秆纤维含量,其对应的栽培甘蔗来源区域在现代甘蔗中被保留并选择,为提高糖分含量和遗传改良提供了重要遗传资源。

图7:GWAS 鉴定与蔗糖相关性状的候选位点
结语
本研究以现代甘蔗这一高度复杂的异源自多倍体作物为对象,系统解析了其核型特征与基因组结构,成功构建了由97条染色体组成、约8.84 Gb的高质量基因组组装。其基因组被明确划分为来源于栽培甘蔗和甜根子草的两个亚基因组。研究表明,多倍化过程中产生的基因组重组显著重塑了转录组表达动态;对192个体近交群体的分析揭示了超亲分离性状的遗传基础;对310份甘蔗种质的群体基因组学研究进一步阐明了现代甘蔗的育种历史与演化过程;开展全基因组关联分析,鉴定出一个与糖分含量相关的潜在候选基因。该研究深入探究了对异源自多倍体基因组演化机制的认识,为甘蔗基因组改良和分子育种提供了重要理论基础与基因资源。