TEL:18327076163

T2T重磅丨仅ONT普通测序实现T2T基因组组装

华命生物目前已成功完成50+物种的T2T基因组组装,物种涵盖动物、植物、昆虫及同源和异源多倍体等疑难物种,已有多个合作项目在顶级期刊发表和接收,欢迎有需要的老师垂询。联系方式:18371456025。

端粒到端粒(T2T)组装是基因组从头组装的终极目标。现有能够实现接近T2T组装的算法均依赖ONT超长(UL)数据,但ONT UL数据成本高昂且实验制备难度大,因此对于缺乏稳定细胞系的样本通常难以获取。

为了解决以上问题,耶鲁大学医学院的李恒老师近日推出hifiasm(ONT),并于2025年4月14日在预印版平台bioRxiv上线“Efficient near telomere-to-telomere assembly of Nanopore Simplex reads”的相关论文,这是首个仅需标准ONT Simplex读长即可生成接近T2T组装的算法,无需超长测序数据,与现有组装算法相比,hifiasm(ONT)将计算需求降低了一个数量级,并在相同数据集上实现了更多染色体的端粒到端粒(T2T)完整构建。

 

一、hifiasm(ONT)算法针对ONT Simplex读长的优化

0现有纠错方法的局限性

专为PacBio HiFi数据优化的组装工具均包含纠错步骤,其核心假设是测序错误稀少且随机,这一假设对PacBio数据基本成立。然而,ONT Simplex数据的错误率更高且具有重复性——相同错误可能在多个读长的相同基因组位置重复出现。这种特性使得难以区分真实杂合变异与测序错误,导致现有HiFi组装工具的纠错算法对ONT Simplex数据效果不佳。

 

0hifiasm(ONT)的创新突破

hifiasm(ONT)通过reads phasing技术克服了这一限制:真实杂合位点通常与附近杂合位点相位一致,而重复性测序错误则无此规律。该算法采用动态规划方法联合分型与错误识别,并整合碱基质量评分,最终将大多数ONT Simplex读长校正至近乎没有错误状态。相比早期版本,hifiasm(ONT)还在组装步骤引入了其他改进。

图1:ONT Simplex数据的错误校正流程

 

二、七个人类基因组的ONT标准Simplex测序

为验证hifiasm(ONT)的性能,我们对GIAB联盟标准样本(HG001-HG007)进行了ONT标准Simplex测序,目标覆盖度≥50×(平均读长N50为30 kb)。与PacBio HiFi数据相比,ONT标准Simplex数据具有以下优势:

01长度优势

reads分布更广,更易获得远超平均值的超长片段,这对复杂重复区域的解析至关重要。

02实用性

虽短于ONT ultra-long 读长(N50 >100 kb),但标准reads通量更高、成本更低,且DNA需求量减少达40倍,适用于超长测序不可行的样本

 

三、‌ONT标准Simplex数据的组装性能评估

01对比工具与方法

hifiasm(ONT):支持直接组装原始读长,仅需CPU资源。

Verkko+HERRO:需先通过GPU密集型工具HERRO纠错,再组装。

 

02关键结果对比

◎效率优势:

hifiasm(ONT)速度比Verkko+HERRO快一个数量级。

使用SUP碱基识别模型时,hifiasm(ONT)在标准服务器(64 CPU)上半天内即可完成组装。

 

◎组装质量:

hifiasm(ONT)在连续性(N50)和T2T染色体数量上显著优于Verkko+HERRO。

Verkko+HERRO仅在单碱基精度(QV值)上略优,因其对长同聚物错误的校正稍好。

 

◎碱基识别模型影响:

使用快速但精度较低的HAC模型时,hifiasm(ONT)的QV值降低约3分,但仍可通过Dorado Polish后处理提升精度。

 

 

四、ONT标准读长与PacBio HiFi组装的对比

01连续性

ONT组装的N50和T2T染色体数量显著高于HiFi组装,主要得益于更长的读长。

02重复区域

ONT组装在多拷贝基因保留率上与HiFi相当,且避免了相似重复序列的坍缩问题。

03精度局限

ONT组装的QV值较低,主要因长同聚物区域错误难以完全校正,导致单碱基错误率和分相切换率略高

表1:不同算法使用ONT Simplex数据和PacBio HiFi数据组装结果比较

 

五、‌ONT超长读长的组装表现

在人类(HG002、HG02818)和非人类基因组(拟南芥、斑马鱼、番茄)中,hifiasm(ONT)仍保持以下优势:

速度与资源

无需GPU,速度比Verkko+HERRO快十倍。

T2T覆盖率

人类基因组:41/46(HG002)、44/46(HG02818)条染色体实现T2T组装。

超长读长进一步提升HG002的T2T染色体数量(从22增至33),优于需混合HiFi数据的Verkko组装(22条)。

图2:使用hifiasm(ONT)组装ONT超长数据情况

 

结语

hifiasm(ONT)通过动态规划纠错和分相技术,首次实现仅用标准ONT Simplex数据就可以完成近T2T组装,大幅降低成本与计算需求。这一突破显著拓宽了T2T组装的适用范围,使得原先受限于超长读长高成本和严苛实验条件的应用成为可能。其效率与连续性优势使其在群体基因组学和临床样本中具有广泛应用潜力。

 

华命生物产品服务一览

 

华命生物目前已开通微信公众号、抖音、知乎、B站、小红书等线上平台,欢迎感兴趣的老师扫码关注了解更多内容!