由于高度重复的序列组成和巨大的区域尺度,人类着丝粒长期以来一直是基因组组装中最具技术挑战性的区域之一。2022 年,端粒到端粒(T2T)联盟完成了首个无缺口的人类基因组 CHM13,首次实现了包括着丝粒和近着丝粒在内的重复序列的完整组装。该成果不仅填补了此前缺失的着丝粒序列,还系统描绘了 α-Satellite 阵列的整体组织、序列组成以及高阶重复(HOR)单元的结构变异,为深入解析人类着丝粒的结构特征和功能机制奠定了坚实的基因组学基础。
杜克大学研究团队于2026年1月6日在国际著名期刊Nature Reviews Genetics上发表一篇标题为“A genomic and epigenomic view of human centromeres”的综述类期刊,综述了近年基于完整人类基因组组装的人类着丝粒研究进展,重点总结其序列结构、变异特征及表观遗传调控机制。

一、核心着丝粒区域与近着丝粒区域
人类着丝粒的核心区域由α-Satellite DNA构成,其基本单位为171bp的重复单体,串联排列形成高度同质化的高阶重复(HOR)阵列。HOR单元内部单体的组成和排列顺序赋予不同染色体特异性。借助CHM13和CHM1等端粒到端粒基因组组装,研究者系统解析了α-Satellite 阵列的精细结构,提出“分层扩张”模型,即高度同质化的HOR重复从核心向外扩展,而较古老的序列在外围逐渐分化。功能性着丝粒染色质通常组装在连续且均一的活性HOR阵列上,并与动粒蛋白CENP-A的富集密切相关,尽管部分染色体含有多个HOR阵列,但仅活性阵列参与动粒组装。
近着丝粒区域紧邻核心着丝粒,包含分化的α-Satellite 、人类卫星DNA(HSat1、HSat2和HSat3)、β和γ卫星DNA以及多种转座元件。尽管这些序列在不同染色体上的分布存在差异,但整体呈现非随机模式,构成位于核心着丝粒与两侧异染色质之间的过渡带。高分辨率分析表明,近着丝粒区域具有明确的边界,其序列组成和染色质状态发生显著变化,可能在功能性着丝粒与周围染色质之间发挥隔离作用。同时,这些区域还可能通过形成类似异染色质的结构,为着丝粒提供稳定性和物理支撑,从而积极参与着丝粒功能维持和染色体行为的调控。

图1:人类及其他生物的着丝粒结构
二、α-Satellite DNA 的变异与着丝粒表观等位型
人类着丝粒在结构和功能上具有显著的个体差异,其中α-Satellite DNA的序列和组织变异是其重要基础。早期研究已发现,α-Satellite 阵列在不同个体之间存在单体缺失、单核苷酸多态性以及阵列长度差异,且许多阵列由经典型与变异型HOR共同组成。这些变异通常由DNA复制、不等交换、重组及损伤修复过程所驱动。基于T2T项目和大规模基因组比较的研究系统揭示了α-Satellite 阵列在不同祖源人群中的结构与序列差异,表明群体遗传背景会影响重复序列的组成、拷贝数和阵列长度。进一步的功能研究显示,α-Satellite 的基因组变异不仅塑造着丝粒结构特征,还可能决定着丝粒在不同α-Satellite 阵列上的组装位置,从而形成可在家系中遗传的着丝粒表观等位型。即便某些变异阵列在动粒结构或蛋白募集能力上存在缺陷,着丝粒仍可能优先在其上组装,这说明着丝粒定位并非仅由序列完整性决定。未来,结合序列结构、转录特征及表观遗传调控,对α-Satellite 多态性的系统研究将有助于阐明着丝粒功能的建立机制,并加深对人类非编码基因组变异生物学意义的理解。

图2:人类着丝粒中的变异
三、人类着丝粒的序列非依赖性特征
长期以来,关于着丝粒组装和功能的研究表明,其着丝粒身份并不完全由 DNA 序列决定,而主要依赖表观遗传调控机制。不同物种及同一物种内部着丝粒序列的高度差异、双着丝粒染色体和新生着丝粒的存在,均支持这一观点。尽管 α-Satellite DNA 为着丝粒提供了基本的序列框架,功能性着丝粒的稳定维持仍依赖于特定的染色质环境。其中,组蛋白变体 CENP-A 在 HJURP 介导下被特异性加载,是着丝粒特异性建立和动粒组装的核心因素。近年来的高分辨率组学和生化研究进一步表明,DNA 甲基化、转录活动及多种染色质修饰共同参与了人类着丝粒特异染色质的形成与维持。
四、DNA甲基化、CENP-A染色质区域与染色质边界
长读长测序结合DNA 甲基化的直接检测,揭示了人类着丝粒 CpG 甲基化具有明确而有序的空间分布特征。研究发现,DNA 甲基化在 α-Satellite 等卫星 DNA 阵列中普遍富集,可能在维持着丝粒染色质结构稳定性方面发挥作用。在着丝粒内部,CENP-A 核小体富集的区域对应一个或多个 CpG 低甲基化区(centromere dip region,CDR),从而将 DNA 甲基化状态与动粒组装位置直接联系起来。不同个体及不同人群之间,着丝粒区域的甲基化水平以及 CENP-A 的密度和空间分布均存在差异,反映出着丝粒表观遗传状态的可变性。此外,核心着丝粒染色质与周围异染色质之间表现出明显的甲基化水平差异,支持 DNA 甲基化参与界定着丝粒功能边界的观点。机制层面的研究进一步表明,ZBTB24 及 ZNF512/ZNF512B 等蛋白参与调控着丝粒区域的 DNA 甲基化、H3K9 甲基化及卫星 DNA 的转录活动,在序列特异性识别与着丝粒表观遗传维持之间建立了直接联系。
五、人类着丝粒中的组蛋白修饰与转录活动
尽管着丝粒长期被视为高度致密且转录惰性的异染色质区域,近年来的研究表明,人类着丝粒具有特定的组蛋白修饰和低水平转录活性。着丝粒染色质中检测到H3K4me2和H3K36甲基化等活跃修饰,显示其并非典型的常染色质或异染色质状态。哺乳动物着丝粒中存在α-Satellite DNA的低水平转录,这一特征在进化上具有保守性,并参与塑造着丝粒的动态表观遗传环境。进一步研究发现,着丝粒转录本可与CENP蛋白形成复合物,并通过m6A修饰稳定CENP-A核小体,从而促进着丝粒的组装与维持。此外,组蛋白修饰酶(如MLL家族)通过调控α-Satellite 转录和CENP-A装配发挥关键作用,而着丝粒转录活动本身对于维持姐妹染色单体黏连同样是必需的。这些发现共同表明,组蛋白修饰与转录活动在着丝粒结构稳定和功能实现中具有核心作用。
六、R环与着丝粒稳定性
R环在着丝粒及其周围区域的调控作用正逐渐成为研究热点。研究表明,BRCA1蛋白能够抑制着丝粒区域R环的形成,其缺失会导致R环积累、DNA损伤和染色体不稳定性。来自其他模式生物的研究进一步支持了R环在着丝粒功能中的保守作用:在酵母中,R环积累会破坏动粒结构;在小鼠减数分裂过程中,R环动态调节纺锤体组装与染色体排列;在植物中,着丝粒反转座子衍生的R环富集于周围异染色质区域。由于其他基因组区域中过量的R环与复制压力及基因组不稳定性相关,因此,探索R环在人类着丝粒中的具体功能仍是亟待深入的研究方向。

图3:类着丝粒的表观遗传特征
七、着丝粒重定位、位点变化或漂移
着丝粒的位置可以发生变化,称为着丝粒重定位或位点漂移,通常涉及 CENP-A在染色体上的重新定位。这种变化不依赖于 DNA 序列的改变,而是表观遗传可塑性的体现。新生着丝粒是由于染色体重排导致原生着丝粒被打破,尽管它们出现在相同的细胞遗传位置,但通常与不同的染色体表型或基因组序列相关。新生着丝粒代表着丝粒从 α-Satellite 阵列重定位到其他区域。例如,3 号染色体上的新生着丝粒不仅导致 CENP-A 定位改变,还表现出在代际间的漂移。表观遗传分析表明,新生着丝粒区域的 CENP-A 富集与 DNA 低甲基化区域(CDR)相关,显示了 CENP-A 定位和表观遗传标志在新生着丝粒形成中的作用。此外,H3K9me3 和 H3K27me3 等组蛋白修饰也在调控着丝粒稳定性中发挥作用。

图4:着丝粒变异与着丝粒重新定位或移动/漂移
八、着丝粒工程与新生人类着丝粒
着丝粒工程为研究人类着丝粒的形成与维持提供了一个高度可控的实验框架,其中人类人工染色体(HACs)发挥了关键作用。与处于复杂基因组和染色质环境中的原生着丝粒不同,HACs允许研究者分别操控DNA序列和表观遗传状态,从而直接检验着丝粒形成所需的基本条件。研究显示,长片段α-Satellite DNA能够支持新生着丝粒的建立,但不同染色体来源的α-Satellite 阵列在能力上存在明显差异,这在一定程度上与功能性CENP-B Box的分布有关。然而,并非所有α-Satellite 序列都具备形成着丝粒的潜力,说明仅凭DNA序列不足以决定着丝粒身份。进一步的实验表明,DNA甲基化、组蛋白修饰以及α-Satellite转录状态共同影响HAC上着丝粒的活性。更为关键的是,通过人工招募CENP-A及相关着丝粒蛋白,即使在缺乏典型着丝粒序列的情况下,也能够建立功能性“最小着丝粒”,从而凸显蛋白组装和表观遗传调控在着丝粒定义中的核心地位。

图5:HAC组装方法
结语
本文围绕近年人类着丝粒研究的重要进展,对其基因组结构和表观遗传调控进行了梳理。研究表明,人类着丝粒以α-Satellite DNA的高阶重复(HOR)为核心,其结构具有明显的分层组织和动态演化特征,近期扩张且高度同质化的重复序列更倾向于富集CENP-A并参与动粒组装。除DNA序列外,DNA甲基化、组蛋白修饰、转录活性及RNA–DNA杂合体等表观遗传因素共同决定着丝粒身份与稳定性。个体间和群体层面的α-Satellite变异、着丝粒表观等位基因及着丝粒漂移揭示了其高度可塑性。人造染色体和人工诱导着丝粒的研究进一步证明,着丝粒本质上是以CENP-A为核心的表观遗传结构,其功能依赖序列与染色质环境的协同作用。这些发现为进一步理解染色体稳定性、进化及相关疾病奠定了基础。