华命生物目前已成功完成50+物种的T2T基因组组装,物种涵盖动物、植物、昆虫及同源和异源多倍体等疑难物种,已有多个合作项目在顶级期刊发表和接收,欢迎有需要的老师垂询。联系方式:18371456025。
着丝粒是真核生物基因组中高度保守的功能区域,但其DNA序列却高度可变,主要由转座元件(TEs)和串联重复序列构成。这些重复序列快速进化,导致近缘物种间着丝粒DNA差异显著。由于高度重复和复杂的结构,着丝粒区域难以组装,多倍体基因组的端粒到端粒(T2T)组装尤为困难,导致多倍化过程中着丝粒的进化动态研究有限。
近日,浙江大学张天真教授团队与南通大学王凯老师团队合作,在《Nature Genetics》发表题为《Post-polyploidization centromere evolution in cotton》的研究论文,成功组装了四倍体陆地棉的T2T基因组(T2T-TM-1),揭示了多倍体植物着丝粒的动态演化规律。
一、T2T-TM-1基因组组装
研究团队通过69.6×ONT超长读长、49.6×PacBio HiFi和Hi-C数据,成功组装了2.30 Gb的无缺口T2T-TM-1基因组,BUSCO评估完整性达99.50%。共注释了79,642个高置信度蛋白质编码基因,比之前版本多出2,699–6,881个。
T2T-TM-1与之前的TM-1相比,新增14.4–612.0 Mb序列,填补了所有缺口,并鉴定了26条染色体的着丝粒区域和47个端粒。全基因组比对显示,T2T-TM-1与之前版本共线性良好,但TM-1_ZJU_V2.1存在四个大倒位,经Hi-C和长读长数据确认为组装错误。FISH实验进一步验证了T2T-TM-1的组装准确性。
另外基于T2T-TM-1的GWAS分析发现,与TM-1_ZJU版本相比,可以将额外的495,707条reads比对到T2T-TM-1。而且基于T2T-TM-1的GWAS分析鉴定出19个与纤维长度相关的位点,高于TM-1_ZJU的11个,表明T2T-TM-1显著提升了群体遗传分析效率。
图1:完整的T2T-TM-1组装
二、TM-1着丝粒解析和CenD08独特演化
作者通过CENH3 ChIP-seq验证了T2T-TM-1的着丝粒区域,每条染色体仅有一个CENH3富集区域,长度1.1–5.6 Mb。着丝粒主要由重复元件组成(>92%),Gypsy家族的LTR-RTs占比超过80%,但CenD08其93.44%为串联重复序列。通过从头聚类分析,鉴定出17个显著富集的重复序列,其中9个经FISH验证与着丝粒相关。这些重复序列主要为Ty3或Gypsy LTR-RTs,表明着丝粒主要由Gypsy样反转录元件主导。
CenD08富含194 bp单体的Gh149串联重复序列,缺乏典型着丝粒反转录转座子(CRs)。研究发现,一个富含CRs的3.44 Mb区域位于Chr. D08上,距离CenD08约3.5 Mb,推测其为CenD08的前身。比较分析支持CenD08在多倍化后向Gh149区域转移。Gh149在TM-1中的长度显著高于G. raimondii(Gr),且TM-1中Gh149形成高阶重复(HORs),而Gr中未检测到HORs,表明Gh149扩增可能为着丝粒功能提供了结构基础。
表1:TM-1,Ga和Gr着丝粒区域鉴定
图2:TM-1着丝粒区域鉴定和解析
图3:Gh149重复序列鉴定
三、亚基因组着丝粒差异和多倍化演化
作者发现,17个着丝粒重复序列中有6个在A亚基因组和D亚基因组间富集差异显著,其中5个在D亚基因组中富集,1个(Gh202)在A亚基因组中特异性富集。这表明大多数着丝粒重复序列在拷贝数上保持平衡,但部分重复序列在进化中经历了显著富集。
通过CENH3 ChIP-seq和聚类分析,研究发现Ga着丝粒中仅5个重复序列高度富集,而Gr的10个重复序列中有4个与TM-1的6个重复序列同源,表明多倍化过程中着丝粒重复序列的演化动态复杂。进一步分析显示,TM-1的D亚基因组着丝粒重复序列拷贝数显著高于Gr,支持D亚基因组重复序列在多倍化后扩增并侵入A亚基因组的假说。
图4:Ga、G基因组和对应四倍体亚基因组比较
四、着丝粒大小和结构演化
TM-1着丝粒平均大小为1.43 Mb,显著大于Gr(0.57 Mb)和Ga(1.01 Mb),支持多倍化后着丝粒出现扩增的观点。染色体共线性分析显示,TM-1与二倍体祖先间的着丝粒区域发生了高频重排,如CenA06、CenA10和CenA13的着丝粒周边倒位,以及CenD03的片段倒位和缺失。另外作者将Ga和Gr的CENH3 ChIP-seq数据比对到T2T-TM-1组装中,观察到一些TM-1着丝粒的位置偏移。这些发现揭示了着丝粒序列在多倍化过程中可能因结构重排而发生显著变化。
此外作者在T2T-TM-1基因组中鉴定出25个非转座子基因,分布在14个着丝粒中。其中14个位于CENH3富集亚结构域,在各组织中表达水平极低;11个位于H3亚结构域,部分基因在多个组织中高表达。这表明功能性着丝粒中存在与H3核小体相关的表达基因。
图5:四倍体棉花着丝粒演化模型
结语
本文通过多种测序手段结合,组装了完整的四倍体棉花T2T基因组,作为理解多倍体植物着丝粒进化的范例,本研究揭示了多倍化过程中着丝粒的复杂动态。除了推进我们对棉花进化的理解外,这项研究也为研究多倍体着丝粒进化的共性和差异奠定了基础。
参考文献
Yan, H., Han, J., Jin, S. et al. Post-polyploidization centromere evolution in cotton. Nat Genet (2025). https://doi.org/10.1038/s41588-025-02115-3
华命生物产品服务一览
华命生物目前已开通微信公众号、抖音、知乎、B站、小红书等线上平台,欢迎感兴趣的老师扫码关注了解更多内容!