TEL:18371456025

NC重磅 | 黄蘖近T2T基因组揭示黄连素合成机制

黄檗(Phellodendron amurense)是芸香科黄檗属的重要木本药用植物,起源于东亚,被认为是第三纪古热带植物区系的孑遗成分,具有重要的生态与进化价值。其树皮富含黄连素,是传统中药的重要来源。不同于主要产黄连素的草本植物,黄檗是无患子目中少见的黄连素合成木本植物。受基因组庞大且高度重复以及野外种群濒危等因素影响,其遗传基础和代谢进化机制长期缺乏系统解析。

东北林业大学研究团队于2025年12月17日在国际著名期刊Nature Communication上发表标题为“Analysis of a near telomere-to-telomere genome of Phellodendron amurense reveals insights into berberine biosynthesis”,该研究成功构建了黄檗近T2T基因组,揭示了黄连素合成相关基因的演化与扩展,特别是PaCNMT基因家族的谱系特异性扩张,提供了黄连素生物合成机制的深入理解。

 

 

一、黄蘖近T2T基因组组装及注释

本研究针对黄檗基因组高度重复、组装难度大的特点,结合PacBio HiFi测序与Hi-C技术,构建了高质量参考基因组。通过两轮Sequel II测序获得68.1Gb高保真长读段数据,实现约24×覆盖。基于HiFi数据进行组装,获得总长度2.92Gb、contig N50达65.3Mb的高连续性基因组。进一步结合Hi-C数据,将99.3%的序列锚定至39条染色体,构建了近端粒到端粒(T2T)的单倍体基因组,其中20条染色体完全无缺口,所有染色体两端均检测到端粒结构。多项评估结果表明该组装质量极高(BUSCO 99.8%,LAI 22.68,QV 76.55)。进一步构建并比较了两套单倍型基因组,系统解析了黄檗基因组中的遗传变异特征。

进一步对黄檗基因组进行了系统注释,共鉴定到59,548个蛋白编码基因,蛋白组完整度达98.39%。重复序列在基因组中高度富集,占比达87.59%,其中LTR反转座子为主要成分(74.52%),表明其基因组扩张主要由LTR元件驱动。Copia与Gypsy两类LTR家族在长期演化过程中持续扩增,但约在139万年前其扩增轨迹发生分化,Copia活性显著下降而Gypsy仍保持活跃。结构注释共鉴定到39个着丝粒区域,解析出由α-Sat和β-Sat构成的复杂卫星DNA及高阶重复结构。大量转座元件在着丝粒区域显著富集,揭示了其在黄檗基因组结构形成与演化中的重要作用。

图1:黄檗基因组及形态学特征

图2:黄檗的基因组组成和结构分析

 

 

二、黄檗基因组的亚基因组单倍型分析

研究进一步解析了其亚基因组组成及演化历史,基于来自10个物种的315个单拷贝基因构建系统发育树,结果显示黄檗与花椒属(Zanthoxylum)在芸香科中亲缘关系最为接近,而柑橘属(Citrus)分化较早。共线性分析进一步表明,黄檗和花椒基因组分别与柚(Citrus maxima)基因组呈现 4∶1 的共线性对应关系,说明二者相对于柚均经历了四倍化扩增;与此同时,黄檗与花椒之间表现为 1∶1 的共线性结构,表明二者处于相同的倍性层级。上述结果共同支持黄檗基因组由四个亚基因组构成。染色体间共线性分析显示,每条黄檗染色体均可与另外三条染色体形成对应的共线区块,进一步印证其古多倍化起源。由于基于序列相似性的分析方法难以准确区分亚基因组,研究采用亚基因组感知的系统发育分相策略,以柚为外群,对黄檗各染色体进行分相并划分为 A、B、C 和 D 四个亚基因组,且大多数染色体呈现一致的系统发育拓扑结构。进一步的着丝粒比较分析显示,仅部分同源染色体对保留了着丝粒位置的进化保守性,而整体着丝粒序列在结构和进化上高度分化,揭示了黄檗基因组在多倍化后经历了显著的染色体结构重塑。

图3:黄檗基因组的亚基因组分型和系统发育分析

 

三、黄檗祖先谱系的分化时间推断

本研究系统推断了黄檗祖先谱系的分化时间及其染色体演化历程。通过重建黄檗与柚的祖先染色体结构,结果显示,黄檗在与柚分化之后经历了显著复杂的染色体重排过程,包括至少 8 次染色体断裂和 8 次融合事件,而柚的染色体结构演化则相对保守。进一步分析表明,黄檗不同亚基因组中还发生了多次染色体易位,持续重塑其染色体结构。基于亚基因组间同义替代率(Ks)分布,研究识别出三次连续发生的谱系分化事件,时间分别约为 27.31、24.49 和 22.05 百万年前。结合黄檗与花椒之间显著的 1∶1 共线性关系,以及 Ks 分析和群体基因组(SMC++)推断结果,研究进一步表明,黄檗谱系中的异源多倍化事件发生在亚基因组最后一次分化之后,但早于黄檗与花椒的属间分化(约 21.50 百万年前)。上述结果明确厘清了黄檗多倍化事件与谱系分化之间的时间顺序与演化框架。

 

图4:黄檗的染色体演化、分化及人口历史

 

 

四、谱系特异性扩张的 PaCNMT 基因家族

黄连素的生物合成依赖多种关键酶协同作用,包括 NCS、6OMT、CNMT、NMCH、4′OMT、BBE、SOMT、CAS 和 THBO 等。基于已在多种产黄连素植物中功能鉴定的相关蛋白序列,作者对黄檗基因组进行了全基因组同源搜索和系统发育分析,系统鉴定了上述基因家族的成员组成。其中,CNMT基因家族在黄檗中数量显著增加,与其他关键酶家族形成鲜明对比。进一步在芸香科内开展比较基因组分析发现,大多数黄连素合成相关基因家族在黄檗与柚之间具有良好的共线性关系,而CNMT和BBE家族例外;在柚和花椒基因组中,仅检测到一个CNMT-like基因,且在多种组织中的表达水平均极低。将分析范围扩展至系统发育位置更远的真双子叶植物后,在莲中检测到与黄檗CNMT同源的共线区段,且二者序列相似性较高。上述结果共同表明,CNMT基因可能起源于早期真双子叶植物祖先,在无患子目演化过程中经历基因丢失,而在黄檗谱系中发生了特异性的扩张,这一过程可能与其稳定合成黄连素的能力密切相关。

图5:黄连素生物合成途径及黄檗中的基因表达

 

五、PaCNMT 基因家族的进化分析

针对黄檗中PaCNMT基因家族的扩张来源,作者对PaCNMT1–4进行了系统的进化、结构与表达分析。成对Ks分析显示,所有 PaCNMT 基因之间的 Ks 值均低于物种分化对应水平,说明该家族并非随异源多倍化事件产生,而是在黄檗形成之后通过谱系特异性的基因扩增逐步形成。其中,PaCNMT3 与 PaCNMT4 的编码序列完全一致,指示二者为最近发生的复制事件。共线性分析进一步发现,祖先 CNMT 基因的同源拷贝仅保留在亚基因组 D 中,且花椒中呈现相同保留模式,表明 PaCNMT 的扩张并非源于两者共享的多倍化历史,而是黄檗谱系中的近期扩增。Ka/Ks分析显示,从祖先基因到 PaCNMT1 及 PaCNMT2 的演化过程持续受到强烈纯化选择。结构与表达分析表明,功能性 PaCNMT 基因保留了高度保守的八外显子结构,并在维管组织中维持较高表达水平,而 PaCNMT-like 基因则因 LTR 插入或移码突变发生结构破坏并趋于功能退化,显示该基因家族在扩增过程中伴随着结构重塑与功能分化。

图6:不同物种中 CNMT 基因家族的进化关系及基因组背景

图7:PaCNMT 基因家族成员的序列演化与表达变化

 

六、PaCNMT 可能促进黄连素在黄檗中的合成

黄连素主要在黄檗的韧皮部和木质部合成。RNA 测序分析显示,黄连素生物合成相关基因在韧皮部和木质部的表达量显著高于叶片。液相色谱-串联质谱定量分析表明,黄连素在韧皮部的浓度比叶片和木质部高出151倍和6倍。进一步分析发现,PaCNMT2 基因的表达与黄连素含量呈现最强相关性,表明该基因在黄连素合成中可能发挥关键作用。尽管 PaCNMT2 存在序列差异,其结构却与其他物种的 CNMT 基因高度相似,且保守的 SAM 结合基序完全保留。酶学实验表明,PaCNMT2 能催化(S)-可可碱的 N-甲基化反应,生成与山茶C. japonica 中 CNMT 相似的产物,且该反应具有高选择性和底物特异性。综上所述,PaCNMT2 在黄连素生物合成过程中起着至关重要的作用,可能通过调控其在韧皮部的高表达来促进黄连素的合成。

图8:黄檗中PaCNMT基因家族的进化扩展

 

结语

本研究结合 PacBio HiFi 测序与 Hi-C 技术,成功组装了黄檗的near-T2T级基因组,基因组总大小为2.92 Gb,contig N50 达 65.3 Mb,基因组注释共识别出 59,548 个蛋白编码基因,蛋白组完整度为 98.39%。基因组中重复序列占 87.59%,其中 LTR 反转座子是主要扩张成分。分析表明,黄檗基因组由四个亚基因组组成,并且在与花椒的亲缘关系中,黄檗经历了四倍化扩增。PaCNMT2 基因表达与黄连素含量高度相关,酶学实验进一步确认该基因在黄连素合成中起着关键作用。本研究为黄檗基因组结构解析及黄连素合成机制提供了重要数据支持。