TEL:18371456025

BMC Genomics项目文章 | 柘树线粒体基因组分析

植物线粒体基因组具有高度动态性和结构复杂性,除参与氧化磷酸化与ATP合成外,还在植物生长发育、分化及程序性细胞死亡等过程中发挥关键作用。随着长读长测序与成像技术的发展,植物线粒体基因组不再被认为是单一环状结构,而常呈线性、分枝或多环等多态构型,其形成与基因组重排、重复序列介导重组及基因转移密切相关,给精准组装带来挑战。

齐鲁工业大学研究团队于2026年1月5日在BMC Genomics上发表了标题为“Assembly and comparative analysis of the complete mitochondrial genome of the Maclura tricuspidata”的研究性论文,这篇首次解析了柘树线粒体基因组为三条环状染色体的多染色体结构,深入探讨了基因编码、重复序列、RNA编辑和叶绿体基因转移等特征,并确认其在桑科植物中的系统发育位置,为理解植物线粒体进化和柘树的药用潜力奠定了基础。华命生物在本项目中完成了测序和部分分析工作。

 

 

一、柘树线粒体基因组的结构特征与注释

本研究对桑科植物柘树(Maclura tricuspidata)线粒体基因组进行了组装与注释分析。基于PacBio HiFi测序数据,采用Flye与HiFiasm两种软件独立组装并获得一致结果,组装连续性较高。结果显示,其线粒体基因组由3条环状染色体构成,总长度为416,801 bp,GC含量为44.94%。基因组注释共鉴定28个蛋白编码基因,包括24个核心基因和4个辅助基因,同时包含18个tRNA基因(其中6个为多拷贝)及3个rRNA基因,核心基因主要涉及ATP合成、呼吸链复合体及细胞色素相关功能。

图1. 柘树线粒体基因组的结构组织

图2. 柘树线粒体基因组基因图

 

 

二、柘树线粒体基因的密码子偏好

研究系统分析了柘树线粒体基因组中28个蛋白编码基因的密码子使用特征,结果显示,除蛋氨酸(AUG)和色氨酸(UGG)等单密码子氨基酸外,其余基因普遍存在明显的密码子使用偏好。终止密码子UAA呈现显著优势,而UAG则被明显回避。多种氨基酸表现出特异性偏好密码子,例如精氨酸倾向于使用AGA、CGA和CGU,丙氨酸以GCU为主而显著抑制GCG。总体而言,以A/U结尾的同义密码子占据主导地位,而以G/C结尾的密码子使用频率较低,表明同义密码子第三位碱基存在明显的A/U偏好。

图3. 柘树线粒体基因组密码子使用偏好分析

 

 

三、线粒体基因组重复序列分析

重复序列分析表明,三条环状染色体在重复序列组成与分布上存在显著差异。染色体1具有最高的重复序列密度,共鉴定84个简单重复序列(SSR),以单核苷酸和二核苷酸重复为主,并包含12个高相似性的串联重复及大量≥30 bp的分散重复,显示出较高的结构复杂性。染色体2和染色体3的SSR数量及分散重复数量相对较少,但同样以回文重复和正向重复为主要类型,其中染色体2含有最长的单个分散重复序列。SSR组成分析显示线粒体基因组整体具有明显的A/T富集特征,单核苷酸(A)n/(T)n重复比例最高,四核苷酸重复主要富集于含AT/TA基序。

图4. 柘树线粒体基因组的重复序列分析

 

 

四、叶绿体向线粒体的 DNA 转移

对柘树线粒体与叶绿体基因组的比较分析共鉴定出19个叶绿体向线粒体转移的DNA片段,总长度17,980 bp,占线粒体基因组的4.31%。其中最长片段为4,728 bp。注释结果显示,这些转移片段包含11个完整的叶绿体来源基因,包括5个蛋白编码基因和6个tRNA基因,说明柘树线粒体基因组中存在明显的叶绿体DNA整合现象。

图5. 柘树叶绿体基因组与线粒体基因组之间发生的基因转移

 

 

五、线粒体 RNA 编辑事件

RNA 编辑预测结果显示,柘树线粒体28个蛋白编码基因中共鉴定出409个RNA编辑位点,均为C-to-U型转换。不同基因间编辑频率差异显著,其中 nad4 和 nad7 的编辑位点数最多,而 sdh4 仅检测到1个位点,atp1、atp6、atp8、cox1、cox3 及 nad4L 未发现编辑事件。

图6. 柘树线粒体基因组PCGs中预测的RNA编辑位点数量

 

 

六、系统发育与正选择分析

基于来自 NCBI 数据库的 27 种被子植物线粒体基因组,利用24个保守的线粒体蛋白编码基因构建系统发育关系。结果显示,柘树隶属于蔷薇目桑科(Moraceae),并与无花果Ficus carica和川桑Morus notabilis 亲缘关系最近,该结果与APG IV分类体系一致,验证了基于线粒体基因构建系统发育关系的可靠性。为评估进化过程中所受选择压力,对柘树及其近缘物种的28个线粒体蛋白编码基因进行了dN/dS分析。结果表明,不同基因间选择压力差异显著,dN/dS值范围从atp8的0.03到sdh4的7.87。其中ccmB和sdh4的平均dN/dS值均大于1,显示其可能经历了正选择,而多数基因dN/dS值小于1,表明净化选择占主导。共线性分析发现,柘树与多种桑科近缘物种之间存在多个共线区块,但整体长度较短且发生了广泛重排,部分区域缺乏同源性,反映出柘树线粒体基因组经历了显著的结构重组并呈现一定的物种特异性。

图7. 柘树与其他相关物种的系统发育关系

图8. 线粒体基因中dN/dS比值的分布

图9. 柘树及其近缘物种的线粒体基因组多重共线性图

 

 

 

结语

文章首次解析了柘树(Maclura tricuspidata)的完整线粒体基因组,揭示其三条环状染色体的多染色体结构,总长度416,801 bp。研究分析了28个蛋白编码基因、18个转运RNA基因及3个核糖体RNA基因,探讨了密码子使用偏好性、重复序列、RNA编辑及叶绿体DNA转移等特征。dN/dS分析显示,部分基因可能经历正选择,而大多数基因则表现出净化选择。共线性分析揭示柘树线粒体基因组相较其他桑科物种有显著重排和物种特异性。系统发育分析进一步确认柘树在桑科中的位置,并与无花果、桑树关系密切,为植物线粒体进化和柘树药用潜力研究奠定了重要基础。