TEL:18371456025

Nature重磅 | 中国人群泛基因组及复杂变异图谱

人类基因组存在丰富的遗传多样性,这对理解疾病机制和人类进化至关重要。短读长测序已揭示大量小变异,但对大型结构变异和高度重复序列解析有限。近年来,长读长测序和高质量组装的发展,为全面解析复杂变异提供了可能。

西湖大学杨剑研究团队于2026年4月1日在国际著名期刊Nature上发表了标题为“The 1000 Chinese Pangenome empowers medical and population genetics”的研究性论文,基于1116个二倍体基因组组装系统构建了高质量中国人群泛基因组资源,补充了现有参考基因组未充分覆盖的非参考序列及功能元件,并建立了多类复杂变异图谱。

 

 

一、1116个二倍体组装概览

研究共有1,379 名参与者,其中1,144个样本接受了全基因组测序。研究者首先对 55 个高覆盖度样本进行测序,并使用 hifiasm开展高质量从头组装;随后,为了将研究扩展到更大规模的人群,又对另外1,099个样本采用成本更低的中等覆盖度测序策略,其中最终有1,061个样本通过研究团队开发的PIGA泛基因组引导组装流程完成组装。经过质量控制,最终获得1,116个二倍体组装。研究进一步表明,PIGA虽然整体精度略低于hifiasm,但仍能较好完成变异检测和单倍型重建,并适用于大规模人群研究。研究还对这些组装进行了重复序列、基因及表观基因组元件注释,发现了参考基因组中缺失的基因和功能元件。

图1:1116 个二倍体基因组组装的评估与注释

 

 

、泛基因组构建与注释

研究成功构建了总长度为3.74 Gb的1KCP泛基因组,并鉴定出405.3 Mb未被现有参考基因组GRCh38和CHM13收录的非参考序列,其中277.5Mb在既有的CPC和HPRC资源中亦未见报道,显著拓展了人类基因组参考信息的覆盖范围。进一步分析表明,这些非参考序列包含不同频率层级的遗传成分:常见和低频序列可在较小样本规模下得到较充分捕获,而罕见序列的识别则依赖更大规模的人群数据。功能注释结果进一步显示,146.6Mb非参考序列可被注释为基因组元件,其中26.2Mb含有功能基因元件及预测调控元件。

图2:1KCP 泛基因组及变异目录

 

 

三、全面而复杂的遗传变异图谱

研究基于泛基因组系统鉴定了多种类型的遗传变异,包括3540万个小变异、110,530个结构变异(SV)、86 万个嵌套变异以及大量串联重复(TR)变异。与传统参考基因组分析相比,泛基因组能够进一步解析位于非参考序列中的嵌套变异,显示出大量此前容易被忽略的遗传多样性,其中大多数嵌套变异位于SV内部。研究还发现,80.3% 的SV位点属于多等位位点,说明其结构复杂,经过等位基因合并后,建立了更适合群体遗传学分析的SV数据集,并发现其中33.3%为之前未报道过的变异,且多数属于低频或罕见变异。与此同时,研究对TR变异进行了更细致刻画,表明除长度差异外,重复基序组成变化也是TR多样性的重要来源。

图3:多层次基因变异图谱

 

 

四、多层次遗传变异的医学意义

研究结果表明,1KCP 数据集从多个层面揭示了复杂遗传变异的重要医学意义。在单基因层面,研究发现大量位于蛋白编码基因外显子中的结构变异,尤其是在医学相关基因中富集了较高比例的罕见变异,并检出已知致病性变异,说明罕见基因改变型 SV 具有重要的潜在临床价值;在串联重复层面,研究系统识别出多种 TR 扩增事件,部分与已知疾病机制、脆性位点及异常甲基化相关,说明这类变异可能参与基因组不稳定性和疾病发生;在更高层级上,研究进一步解析了血液和免疫相关基因簇的复杂结构单倍型,并在 HP 基因簇中发现与血脂性状密切相关的缺失变异。同时借助高质量组装数据,研究还实现了HLA 区域更高分辨率的单倍型解析,揭示了丰富的非编码区多样性及更精细的连锁不平衡结构。

 

 

五、全变异eQTL分析

在基因表达调控分析中,1KCP首次将小变异与复杂变异纳入统一框架,系统评估了不同类型遗传变异对基因表达的影响。研究发现,除SNV和indel外,SV、TR和嵌套变异同样是重要的表达调控因素;在具有一定cis遗传力的基因中,复杂变异平均可解释12.6%的表达遗传贡献。进一步的eQTL分析共鉴定出15,722个eGene和大量显著相关的eVariant,其中3,256个主要关联信号来自复杂变异。值得注意的是,许多嵌套变异位于增强子、启动子及UTR等功能区域,说明参考基因组之外的非参考序列同样具有重要调控作用。TR分析还表明,除长度变化外,重复基序组成差异也会显著影响基因表达,并可能通过不同机制作用于同一基因位点。进一步结合215种性状的GWAS数据,研究鉴定出1,563个eQTL-GWAS共定位信号,其中119个涉及复杂变异,说明这些过去较难检测到的变异不仅参与基因表达调控,也可能进一步影响复杂性状形成。

图4:全变异表达数量性状位点(eQTL)分析

 

 

六、1KCP 全变异基因型填补参考面板

在应用层面,研究进一步构建了1KCP全变异基因型填补参考面板,将小变异、结构变异、嵌套变异、TR长度与基序变异,以及不同分辨率的HLA等位基因统一纳入同一框架。基于55 个高覆盖度样本的留一法评估结果显示,该面板在多类变异的填补中均具有较高准确性。与现有参考面板在外部样本中的比较进一步表明,1KCP在SV、TR和HLA等位基因填补方面表现出更高或相当的准确度,同时还能实现以往较难获得的嵌套变异、TR 基序组成以及高分辨率HLA等位基因的填补,不仅提供了更完整的变异参考资源,也显著拓展了后续遗传关联研究中复杂变异的可及性与分析范围。

图5:1KCP 全变异基因型填补面板

 

 

结语

本研究系统构建了高质量中国人群泛基因组资源,补充了现有参考基因组未充分覆盖的非参考序列及功能元件,并建立了涵盖小变异、结构变异、串联重复、嵌套变异和HLA等位基因的复杂变异图谱。进一步分析表明,这些多层次变异广泛参与基因表达调控、复杂性状形成及医学相关遗传机制解析,并进一步建立了全变异基因型填补面板,为后续更系统地识别和利用复杂变异提供了重要支持。