端粒到端粒(T2T)基因组组装代表了基因组测序和组装领域的一个重要的里程碑,它实现了从染色体的一个端粒到另一个端粒的完整序列的生成。人T2T基因组揭示了以前无法通过测序组装获取的未知区域。T2T基因组也已在重要作物如水稻、大豆和玉米等上获得,为着丝粒功能和进化以及其他基因组特征的研究提供了宝贵见解。
近日,来自默多克大学等地的研究团队在著名期刊Nature Genetics上发表了综述文章Unlocking plant genetics with telomere-to-telomere genome assemblies,在这篇综述中,研究人员讨论了复杂作物T2T基因组面临的挑战,如重复序列、多倍体和杂合度。深入探讨了不同植物物种中T2T组装的现状,并讨论了它们在泛基因组学、功能基因发现、数量性状位点(QTL)克隆和育种策略中的多种应用。最后,强调了T2T组装如何帮助科研人员应对未来基因组辅助育种中的挑战。
一、植物T2T基因组的挑战
1. 基因组功能区域的重复序列
在植物基因组中,重复序列是一个重要特征,它们通常包含关键的遗传和功能区域。大型串联重复序列区域的组装,包括端粒、亚端粒、NORs和着丝粒,是非常具有挑战性的。它们的复杂性从简单的单核苷酸重复和二核苷酸重复到跨越数百万碱基重复序列不等。在大多数基因组组装中,这些大型串联重复序列区域通常是缺失的。即使使用最新的长读长测序,这些区域的准确组装也很困难,特别是当重复序列长度远远超过测序读长时。这些重复序列的长度和拷贝数的高度可变性往往导致测序数据几乎相同,从而给组装过程带来复杂性。
2. 多倍体
多倍体基因组(Polyploid genomes)与二倍体基因组相比显著增加了复杂性和大小,对基因组组装过程构成了挑战。多倍体基因组包含多个高度相似的亚基因组,这使得区分同源位点(homoeologous loci)变得困难。同源位点之间的高度序列相似性可能导致错配和错误组装,从而产生基因组的碎片化或错误表示,这在同源多倍体(autopolyploids)中尤为明显。此外,多倍体基因组中重复元件的存在往往被放大,这进一步增加了组装过程的复杂性。
为了应对这些挑战,很多时候都是通过先测序多倍体作物的二倍体祖先,为后续的多倍体基因组组装奠定基础。这些二倍体基因组被用来指导映射和区分多倍体基因组中的同源序列,从而实现更准确和全面的组装。然而,在某些情况下,多倍体其二倍体祖先并不为人所知。这要求研究人员采用其他策略来应对这些无已知二倍体祖先的多倍体基因组的组装挑战,需要依赖更高级的测序技术和生物信息学工具来解析这些复杂的基因组。
3. 高杂合度
杂合度(Heterozygosity)是植物中T2T组装面临的另一个主要挑战,特别是在同源多倍体和未近交物种中。杂合度在种群中主要通过遗传漂变、基因流以及不同环境中自然选择的不同方向等过程得以维持。高杂合度的植物基因组往往在同一个位点上存在不同的等位基因,这使得在组装过程中难以区分这些等位型,从而得到正确的单倍型。这种困难常常导致组装的错配,使得最终的基因组组装结果不够准确。
二、T2T基因组组装策略
鉴于上述挑战,实现T2T基因组组装仍然是一项艰巨的任务。下面,我们将讨论可以用来克服这些挑战的策略。
1. 高质量DNA提取
高质量的DNA提取对植物基因组的组装至关重要。然而,在植物和真菌中,由于其坚固的细胞壁以及高含量的多糖、多酚和其他次生代谢产物,提取高质量的DNA尤其具有挑战性。获得高分子量且未受多糖、酚类等污染的DNA对于长读长测序至关重要。
2. 长读长测序
在过去的十年里,得益于长读长测序技术的出现,植物基因组学的研究得到极大发展。一个具有变革性的发展是2019年PacBio公司推出的高保真(HiFi)读长技术,该技术可以得到约20kb长度的读长,且单碱基准确率超过99%。另一个重要的长读长测序是ONT(Oxford Nanopore Technologies),但尽管ONT测序可以产生超长读长,但之前一直受到高错误率(约10%)和同聚物错误困扰。不过随着新的flowcell(R10.4)、改进的化学试剂(V14)以及更高精度模式的推出,ONT已经实现了平均读长100kb且准确率约99%的突破。
目前,PacBio和ONT技术都在被用于不同作物物种的高质量基因组组装。除了基因组组装外,这些技术还使得全基因组DNA甲基化模式的分析成为可能。这些DNA碱基的修饰在PacBio测序过程中会改变聚合酶的动力学,而在ONT测序中则会影响修饰碱基附近的电流,从而允许直接从测序读长中检测到这些变化,而无需额外的实验室程序。鉴于其巨大的影响,长读长测序技术被命名为“年度方法”(Method of the Year),这充分表明了该技术在基因组学和生物学研究领域的重要性和广泛应用前景。
3. 染色体骨架拼接
随着长读长测序技术的发展,染色体拼接技术如高通量染色体构象捕获(Hi-C)和光学图谱技术(optical-mapping)正日益受到重视。Hi-C技术通过交联和片段化染色质,然后将片段连接在一起并进行测序来工作。通过分析不同片段之间的相互作用模式,可以推断出不同基因组区域在三维(3D)空间中的相对位置。Hi-C数据目前已经是染色体拼接的主流方法。而光学图谱技术是一种非测序方法,它利用纳米通道和荧光标记的DNA分子来生成高分辨率、高通量的DNA结构图谱,光学图谱技术可以通过在DNA分子通过纳米通道时对其进行成像,来创建整个基因组的图谱,其分辨率高达10kb。
4. 基因组组装算法
基因组组装算法用于将DNA序列拼接成基因组图谱。目前,基因组组装常用的工具主要分为两大类:基于重叠图(Overlap Graphs)的方法和基于德布鲁因图(de Bruijn Graphs)的方法。前者包括Hifiasm、HiCanu、ALGA、SAVAGE、Readjoiner、SGA和fermi等工具,它们通过识别重叠的读取(reads)来构建图,图中的路径代表染色体的一部分。而基于德布鲁因图的方法将reads分割成k-mers,并构建一个图,其中每个k-mer代表一个节点,而边则连接重叠的节点。然后,通过遍历这个图来生成连续序列(contigs),这些连续序列再被合并成更大的支架(scaffolds),但它对测序错误敏感,并且不保留原始的读取信息,这些信息在解决模糊性时可能非常有用。随着更长、更高质量的读取数据的出现,基因组组装过程的效率得到了提高(特别是基于Overlap Graphs的方法),并且已经为包括拟南芥、水稻、香蕉、西瓜、草莓和猕猴桃在内的多种植物物种实现了接近完整和完整的基因组组装。这些进步为基因组学研究和作物改良提供了重要的工具和数据支持。
5. 单倍体分型
单倍型分型(Haplotype phasing)是指将高杂合度或多倍体基因组中的同源序列根据其亲本来源进行分离,或者换句话说,将位于同一物理染色体上的序列聚集在一起的过程。
随着组装算法的发展,现在更容易为广泛杂合的二倍体和多倍体基因组创建单倍型解析的组装。目前,用于植物基因组分型的常见从头组装方法涉及使用等位基因感知算法(如Hifiasm和Canu)对等位基因连续序列进行初步组装和分型,随后通过Hi-C技术生成染色体级别的单倍型组装。例如,使用这种方法,已经开发了茶树的单倍型解析组装,以研究其驯化历史。
此外,还出现了基于亲本分箱(trio-binning)的算法,如TrioCanu和Hifiasm+trio,这些算法使用亲本测序数据对二倍体基因组进行分型。亲本测序数据是从一组三个相关个体(通常是父母和后代三个个体)获得的基因组数据。这些算法使用独特的亲本k-mers将F1杂交后代的长测序读取划分为父本和母本集合,然后,这些集合被分别组装成单倍体基因组,代表亲本基因组。然而,这种方法的主要缺点是必须获得亲本数据,而基因库中的自然种质可能并不具备这样的条件。
6. 实验验证
实验验证可以为组装序列的正确性和完整性提供支持证据。荧光原位杂交(FISH)和染色质免疫沉淀高通量测序(ChIP–seq)是常用于验证复杂基因组结构和重复区域的技术。FISH可以通过用荧光染料标记特定的DNA序列来识别完整染色体中的基因组区域。FISH对于核仁组织区(NORs)的验证尤其有价值,因为NORs由串联重复的核糖体RNA基因组成难以组装,而核糖体RNA基因特异性的FISH探针可以确认NORs的位置和排列。此外,FISH还可以用于验证基因组组装中染色体末端(有时也包括内部)端粒序列的存在和正确定位。
ChIP–seq也是一种广泛使用的测序方法,用于识别被特定蛋白质结合的DNA区域。通过使用针对着丝粒特异性组蛋白H3(CENH3)的抗体进行ChIP–seq,可以拉下着丝粒区域,进而用于确认基因组组装中着丝粒的位置。FISH和ChIP–seq都已被用于植物中着丝粒区域的识别,这些区域在种内和种间序列组成上容易发生快速变化,从而允许研究包括拟南芥、水稻、玉米、小麦、棉花和大豆在内的多种物种中着丝粒的进化、组织、分布以及功能和稳定性的潜在机制。将实验数据与计算组装方法相结合,对于获得高质量的基因组组装具有重要意义。
7. 人工处理
人工处理处理是生成植物基因组组装的重要步骤。通过将组装结果与现有基因组知识进行比较,如某些基因的存在或缺失、与相关物种的共线性(synteny)或特定重复序列的存在,可以验证组装的准确性。此外,高密度遗传连锁图谱(genetic linkage maps)也可以用于验证组装的准确性,通过确认标记和基因的预期顺序和方向来实现。另外,细菌人工染色体(bacterial artificial chromosome, BAC)克隆的序列也可以用来提高基因组组装的准确性和完整性。
一旦组装完成,就可以使用多种工具来评估其质量和完整性,如BUSCO、QUAST和GenomeQC等。这些工具能够提供关于组装完整性的统计信息,比如评估基因组的覆盖度、N50长度、以及是否存在特定的基因或基因组区域等。人工处理在植物基因组组装过程中扮演着至关重要的角色,而后续的质量评估工具则有助于确保组装结果的准确性和可靠性。
8. 准确的基因预测
在获得T2T基因组后,下一步是识别功能元件,特别是蛋白质编码基因。基因预测可以大致分为从头预测(ab initio)、基于同源性的预测和基于证据的预测三类方法。从头预测和基于同源性的预测方法往往会遗漏小的内含子以及新颖或丰度不同的基因,而基于证据的预测方法则利用转录组数据来支持基因预测,识别新颖或低丰度的基因,并优化预测基因的结构和边界,包括添加非翻译区(UTRs)。之前短读长RNA测序数据被用于基因预测。然而现在长读长RNA测序数据的可用性提供了完整且准确的读长,这些读长跨越了整个转录本,使得能够识别新的异构体、可变剪接事件和复杂的基因结构。
为了更准确地注释基因,一般需要一个混合基因预测流程,该流程结合了上述三种方法,并辅以手动整理。混合基因预测流程能够综合利用各种方法的优势,提高基因预测的准确性和完整性,可以识别出更多的基因,包括那些传统方法难以预测的新基因。同时,手动整理步骤可以进一步验证和修正预测结果,确保基因注释的准确性和可靠性。这种综合方法对于理解植物基因组的复杂性和功能至关重要。
9. T2T基因组组装
在生物信息学领域,构建T2T基因组是一项极具挑战性的任务,但正如上文所述,通过合理的测序和组装策略组合,已经在少数情况下取得了成功。这些成功案例主要依赖于高覆盖度的测序数据、不同的组装算法以及后续的手动校正,从而为一些植物物种,如拟南芥、水稻、玉米和西瓜等,开发了接近完整的T2T基因组组装。
以模式植物拟南芥(Arabidopsis)为例,尽管其基因组序列早在2000年就被报道,但直到2021年,科学家们才成功组装了包含所有五个着丝粒的A. thaliana哥伦比亚生态型(Col-0;Col-CEN)的基因组序列,这一成果首次揭示了拟南芥着丝粒的结构和演化。这一组装是通过ONT超长测序、PacBio HiFi和Bionano光学图谱数据进行优化的。
T2T组装技术使得我们能够深入研究重复区域的复杂性,除了已深入研究的逆转座作用(retro-transposition)外,非转座元件重复的扩增也能对植物基因组组成做出贡献。这种认识不仅扩展了我们对植物基因组动态变化的理解,还揭示了基因组结构多样性的重要方面。
图1:组装植物T2T基因组的不同策略
表1:部分植物T2T基因组展示
三、T2T基因组的应用
T2T基因组不仅可以进一步推动作物遗传学和育种领域的研究,同时有助于提高农业生产力,下面重点介绍一些T2T基因组组装的应用。
1. 非编码RNA(ncRNA)、蛋白质以及DNA和蛋白质修饰
ncRNA是生物学研究中极其重要的领域,众多研究表明非编码RNA基因与重要性状之间存在关联。一个完整的T2T组装将使我们能够更完整、更准确地识别非编码RNA基因及其靶标。
基因和基因组的功能是由细胞核内蛋白质、DNA和RNA之间的相互作用决定的,因此,仅仅依靠二维的DNA序列是不足以全面阐述核基因组的结构或功能的。通过T2T组装,我们可以更高效、更全面地运用各种技术,如DNA甲基化分析(用于DNA)、ChIP-seq(用于蛋白质)、DNase-seq(用于开放或活跃区域)以及Hi-C交联技术(用于三维结构),来深入研究这些相互作用。这些研究有助于我们刻画通常高度动态的染色质状态,这些状态区分了活跃的常染色质和相对不活跃的异染色质。值得注意的是,这两种状态并非简单的二元对立,而是由一系列尚未被充分理解的、具有不同染色质潜能的复杂状态组成的。
2. 着丝粒深入研究
着丝粒在生物功能中扮演着至关重要的角色,特别是在细胞分裂过程中的染色体分离方面。此外,着丝粒附近的减数重组对其邻近区域的影响也是作物改良中的一个重要方面。例如,通过比较基于长读长测序数据的两种棉花的基因组组装,发现棉花之间着丝粒区域的巨大差异,这些区域缺乏共线性。基于着丝粒区域中丰富的Gypsy类长末端重复序列,作者推测逆转座子是棉花着丝粒形成的原因。通过种内和种间比较,发现非同源染色体着丝粒序列之间的高度相似性,作者从而得出结论认为棉花着丝粒在物种分化后发生了复制。
此外,对水稻着丝粒中不等重组的分析表明,与以往遗传学教科书中的观点以及普遍认知相反,着丝粒的核心部分(即动粒)并不抑制重组,而是抑制了重组事件中交叉互换结果的频率。这一发现对着丝粒的结构和功能有了新的认识。
着丝粒介导的染色体工程作为一个新兴领域,展现出了巨大的潜力。这种方法涉及着丝粒的人工修饰和合成,可能允许开发新的染色体构型和稳定人工构建的染色体。着丝粒操作的一个特别创新的应用是生产单倍体植物,通过工程化CENH3,可以在早期胚胎发育过程中诱导靶向基因组消除,从而产生单倍体植物。这种方法可以加速纯合子自交系的产生,从而加速作物育种进程。CENH3基因转录的突变会导致着丝粒变小或缺陷,进而影响染色体的正常传递和细胞分裂的稳定性。因此,对着丝粒的深入研究和工程化操作将为作物遗传改良和农业生产带来新的机遇和挑战。
3. 增加泛基因组的遗传多样性
随着染色体级参考基因组组装的日益增多,遗传多样性的表征得到了极大的促进,从而加速了功能基因组学和作物育种的发展。然而,单一的参考基因组只能捕捉到广泛存在于不同种质资源(包括野生种)中的遗传多样性的有限部分。在这种情况下,泛基因组(pangenome)作为一种新的参考,包含了多个基因组组装中的所有新等位基因,正逐渐成为指导不同植物物种遗传变异分析的新标准,同时也解决了使用单一基因组时存在的参考偏差问题。目前,许多植物物种的泛基因组构建工作正在进行中,而迄今为止可获得的T2T(端粒到端粒)组装的完整性是在所有相关组装中筛选保守和独特基因组片段的一个很好的起点。
一般来说,当前的泛基因组在代表其野生种基因组成方面表现欠佳。例如,利用九个野生种和两个栽培种的染色体级组装构建的番茄(Solanum lycopersicum)属级泛基因组,有助于克服传统泛基因组多样性有限的问题,传统泛基因组大多基于栽培种和近缘野生祖先种构建。除了鉴定出一个能够提高栽培番茄产量潜力的野生番茄基因外,番茄泛基因组还指导了基因导入策略,将野生番茄基因片段整合到栽培的优良遗传背景中。
这种基于泛基因组的方法为作物遗传改良提供了新的视角和工具,使得研究人员能够更全面地理解作物遗传多样性,并设计出更有效的育种策略。通过整合野生种中的有利基因,可以加速作物性状的改良,提高作物的适应性和产量,从而满足日益增长的粮食需求。
4. 解析复杂植物性状的遗传基础
许多与农业相关的性状在遗传上都是复杂的,并受到环境的强烈影响。了解这些性状的遗传结构对于将它们调整到现代农业环境中至关重要。先进的基因组技术已经通过在大规模人工作图群体和多样性种质资源集合中发现和基因分型遗传变异,增强了作物性状分析的能力。T2T基因组组装将支持下一代方法的发展,用于绘制复杂植物性状图,实现高分辨率的遗传解析和功能基因发现。将测序序列与T2T参考基因组进行比对,可以精确识别全基因组遗传变异,以便进行下游分析。在这方面,一个染色体级单倍型蓝莓基因组在解析重要性状挥发性香叶基丙酮的遗传控制方面的效用已经得到了证明。使用新的T2T蓝莓基因组组装进行的全基因组关联研究表明,该性状由两个基因组区域控制,从而纠正了先前基于相对片段化的蓝莓参考基因组组装分析所支持的多基因控制假说。
T2T组装提供的完整基因组信息不仅增强了基因组注释的完整和准确性,还为候选基因挖掘工作提供了基础。例如,国际小麦基因组测序联盟的小麦RefSeq 1.0版本与重测序数据相结合,有助于解析小麦中生物(昆虫)和非生物(干旱)胁迫耐受性的茎秆坚实性(SSt1)数量性状位点(QTL)。这一发现表明,T2T基因组组装在解析复杂植物性状遗传基础方面具有重要作用,有助于育种人员更准确地选择和培育具有所需性状的作物品种。
5. 基因编辑系统用于快速性状改良
工程核酸酶作为分子剪刀的能力已经彻底改变了遗传学方法,CRISPR-Cas9已成为首选的基因编辑工具,因为它能够轻松且高效地在目标基因组序列中引入精确变化。T2T基因组提供的关于基因组靶点的完整信息,有望进一步推动CRISPR-Cas9的应用,通过优化靶向RNA的设计,最大限度地减少脱靶的风险。这对于拓宽具有庞大而复杂基因组的多倍体作物的狭窄遗传基础尤为重要;由于缺乏在多个等位基因中同时引入突变以产生所需表型所需的基因组信息,这些作物的靶向基因组修饰一直难以实现。例如,TaAGL33是基于小麦中开花位点C(FLC)同源序列精细注释确定的四个高置信度基因之一,它已成为基因编辑的目标。设计的guide RNA使得CRISPR-Cas9能够编辑小麦基因组中的所有三个TaAGL33同源基因。编辑后的植物比对照组(即野生型)提前两到三天开花。类似地,栽培紫花苜蓿(Medicago sativa L.)的染色体级组装有助于克服这种自交四倍体作物诱导突变的固有瓶颈。这些例子表明,T2T基因组组装在加速作物性状改良方面具有巨大潜力。
6. 在作物育种计划中快速追踪单倍型引入
育种科学家一直在利用重组和选择来不断改良作物品种的遗传组成。基因组辅助育种通过追踪育种计划中数量性状位点(QTLs)的引入,极大地加速了选择决策,尤其对选择对表型具有强烈影响的QTLs、追踪隐性等位基因以及预测植物发育后期才表达的性状特别有用。然而,当前的基因分型平台,如固相SNP芯片等都无法捕获候选基因的所有单倍型。此外,长期在不同地点测试的优良育种系、品种及其谱系的单倍型解析组装将揭示与历史育种决策相关的单倍型,从而为改良提供育种目标。未来,新的单倍型可以通过分析包括地方品种和野生近缘种在内的多样化种质资源的高质量组装来获得,以改善现代作物的性状。
7. 野生作物的驯化以保障粮食安全
尽管作物已有约12,000年的栽培历史,但现代品种的驯化和人工选择却仅限于少数植物种类。在全球气候变化背景下,为了保障全球粮食安全,我们需要将当前的栽培作物种类扩展到那些具有高产特性的作物。功能基因组学对作物驯化性状的研究表明,这些性状受少数几个基因或数量性状位点(QTLs)控制,这些基因或QTLs对相关表型产生巨大影响。事实上,已经克隆出多个相关基因,包括玉米中的tb1、番茄中的fw2.2,以及水稻中的sh4等。为了获得具有理想特征、能在农艺实践下实现最佳产量的植物,育种工作一直受到“理想株型设计”的指导。候选物种(野生或未驯化)的高质量基因组组装(最好是T2T基因组)以及现有的基因内容和注释信息,使得我们能够精确识别野生近缘种中作物驯化位点的同源基因。随后,可以利用CRISPR–Cas等技术对这些基因进行编辑,从而更容易地将野生植物转化为栽培作物的候选物种实现从头驯化。例如,最近的研究探讨了野生植物从头驯化的潜力,包括毛酸浆、番茄和长豇豆,这些研究通过最先进的基因编辑技术或诱变技术,在已知的驯化位点引入了遗传变异。通过从头驯化野生作物,我们不仅可以增加作物的多样性,还能提高作物的适应性,以应对气候变化等挑战,从而进一步保障全球粮食安全。
图2:植物T2T基因组的应用
结语
实现植物T2T基因组组装需要遗传学家、生物信息学家、育种专家以及其他领域专家的共同努力。进一步发展测序技术、基因组注释工具和数据分析软件对于深化植物基因组的理解以及改进作物育种工作至关重要。T2T组装在未来育种工作中的真正潜力将取决于能否将基因组序列信息与多组学和表型水平上观察到的变异相关联。最后作者表示,基于T2T基因组的染色体工程引领未来将作物理想株型育种进入一个新的变革阶段,为粮食安全和可持续农业做出贡献。
参考文献
"Unlocking plant genetics with telomere-to-telomere genome assemblies;Nature Genetics https://doi.org/10.1038/s41588-024-01830-7
华命生物产品服务一览
华命生物目前已开通微信公众号、抖音、知乎、B站、小红书等线上平台,欢迎感兴趣的老师扫码关注了解更多内容!