在非模式生物中,遗传变异的准确刻画对理解种群的进化动力学以及为具有保护意义物种制定管理策略至关重要。然而,这些推断的可靠性在很大程度上依赖于所使用的参考基因组,当引入近缘或外缘物种时容易出现参考偏差(reference bias):即与参考序列高度相似的测序读段更容易被高质量比对并保留,而差异更大的读段可能比对失败或被剔除,从而导致变异漏检、杂合位点误判甚至偏向参考等问题。
南加州大学Jazlyn A. Mooney教授及研究团队于2025年9月22日在国际著名期刊Cell上发表题为“Reference genome choice compromises population genetic analyses”的研究论文,研究当使用异种参考基因组(家犬和北极狐)与使用同种参考基因组(灰狐)时,所得的人口历史、重组格局、位点频率谱、遗传多样性、Fₛₜ 异常位点和重组率推断的结果差异,以系统评估参考偏差对这些关键分析的影响。
一、物种匹配的参考基因组产生更多的SNP和罕见变异
作者对比了使用灰狐(同种)、家犬CanFam4基因组和北极狐(异种)参考基因组时,灰狐东部和西部种群遗传变异及等位基因频率谱(SFS)的估算差异。结果表明,使用灰狐参考基因组检测到的SNP数量比异种参考高出26%-32%,且东部和西部种群的单例变异分别多出约33%和35%。此外,灰狐参考基因组的SNP平均深度稍高,且缺失率最低。在将异种参考基因组的SNP映射至灰狐基因组后,约80%的变异仍被识别,其中约50%-53%为非单例SNP。未映射的变异中,14%-18%未在灰狐参考中被识别,其中一半映射至不变位点,另一半则没有匹配。
图1:参考偏差影响变异检测
表1:每个参考基因组和群体的成功定位reads总数、SNPs数量和杂合度估计值(平均值±标准差)
二、物种匹配参考基因组提高有效种群大小估计值
作者利用 smc++(顺序马尔可夫共祖模型)、MSMC2(多序列马尔可夫共祖模型)和 stairway plot 2(基于谱系频率谱的历史推断方法)对东、西部灰狐种群的历史演化进行了推断,并评估了参考基因组选择对结果的影响。研究发现,西部种群的有效群体大小(Ne)始终高于东部种群,但不同参考基因组的选择导致推断轨迹存在显著差异。使用灰狐自身基因组作为参考时,Ne 的估值较高且波动较小,而使用北极狐和犬类基因组时,推断结果的差异性较大。特别是在约 5000-7000 年前,灰狐基因组推断显示西部种群数量有所增加,而异源参考基因组则显示数量下降。为减少参考偏差,作者屏蔽了未能映射的 SNP,并通过下采样验证,结果表明,轨迹差异不仅由变异类型差异引起,还受有效位点数量的影响。进一步比较不同方法时,作者发现 MSMC2 和 stairway plot 2 在东部种群的推断差异较大,且对异源参考基因组尤为敏感,这表明方法学选择对推断结果的影响有时甚至超过了参考基因组差异。
图2:参考偏差影响SFS和人口轨迹
三、不同参考基因组和种群的重组率不同
作者利用pyrho方法分析了东、西部种群在不同参考基因组下的重组率,发现参考基因组选择显著影响推断结果。在东部种群中,北极狐基因组推断的重组率比灰狐低约31%,而CanFam4高估约34%;在西部种群中,两种异源基因组均高估重组率,分别高出13%和9.5%。整体来看,东部差异更明显,异源基因组分别导致低估和高估,而西部则普遍表现为高估。进一步的50-kb窗口分析表明,异源基因组不仅增加了重组率的变异性,特别是在染色体末端,还显著提高了最大重组率。例如,东部种群的灰狐基因组最大重组率为7.34cM/Mb,而使用北极狐和CanFam4基因组时分别升高至14.9和23.4cM/Mb;在西部种群中,灰狐基因组的最大重组率为11.6cM/Mb,而北极狐和CanFam4基因组分别升至24.9和14.5cM/Mb。结果表明,异源参考基因组可能系统性地高估重组率,尤其是在高值区间,进一步强调了参考基因组选择在推断重组率准确性中的关键作用。
图3:灰狐种群参考基因组重组率比较
四、异种基因组低估了多样性和分化
作者分析了两种灰狐种群中不同参考基因组对核苷酸多样性(π)和遗传分化(Fₛₜ )估计的影响。结果表明,灰狐基因组在东、西部种群中均提供了更高的核苷酸多样性估计值,而异源参考基因组(北极狐和 CanFam4)则低估了多样性。此外,使用灰狐基因组时,东西部种群的多样性差异最大,西部种群的多样性约为东部的 2.02 倍,而异源基因组下东西部种群的差异较小。Fₛₜ 分析结果也表明,灰狐基因组的 Fₛₜ 值显著高于异源参考基因组。最后,Tajima’s D 结果显示,灰狐基因组的低频多态性较多,这与灰狐基因组检测到更多单态突变的结果一致。整体而言,参考基因组的选择显著影响了多样性和分化的估计,强调了使用本种基因组的重要性。
图4:在东部和西部灰狐种群中,灰狐的多样性和分化估计较高
五、参考基因组选择影响Fₛₜ 异常值检测
作者通过对比不同参考基因组的Fₛₜ 异常窗口检测结果,发现参考基因组选择显著影响异常信号的识别。结果显示,异源参考基因组识别的特有异常窗口数量是同源基因组的两倍以上,而共享异常窗口数量则与特有窗口数量相当。在北极狐与灰狐的比较中,识别到148个共享窗口,同时北极狐特有137个,灰狐特有63个;在CanFam4与灰狐的比较中,共享窗口为165个,CanFam4特有141个,灰狐特有61个。进一步比较北极狐与CanFam4,发现它们之间共享191个异常窗口,略多于它们分别与灰狐共享的数量(148-165)。尽管如此,三者中大多数窗口在任一参考中均未显示Fₛₜ 升高,反映了方法的保守性。整体而言,异源参考基因组不仅会增加异常窗口的检测数量,还可能产生更多特有信号。
六、功能富集模式揭示了Fₛₜ 异常值中的参考特异性生物过程
通过对 Fₛₜ 异常窗口进行 GO 功能富集分析,作者发现不同参考基因组不仅能够捕获部分重叠的生物学过程,还呈现出各自独特的信号。其中,灰狐基因组具有最多的特有术语(74 个),Canfam4 和北极狐分别为 71 个和 65 个。虽然三者间共有 55 个术语,但总体上特有术语数量更多,且灰狐与 Canfam4 的重叠度高于灰狐与北极狐。
进一步分析显示,北极狐参考基因组更强调与细胞运输、分泌和信号传导相关的过程;Canfam4 参考基因组则突出生长、分化及内分泌反应;而灰狐参考基因组主要集中在神经系统功能、免疫调控和细胞增殖。基因集的深度富集结果进一步表明,北极狐特有的异常窗口主要涉及肌肉发育和代谢,而 Canfam4 的特有窗口则与染色体组织和细胞分化密切相关。这些差异揭示了参考基因组的选择会显著影响功能解释。总体而言,北极狐所呈现的信号可能反映运动、捕猎或体温调节相关的适应,而 Canfam4 的结果则更多指向发育及细胞周期调控方面的差异。
图5:Fₛₜ 异常值和功能富集分析揭示的参考特异性模式
结语
本研究通过将灰狐的全基因组序列数据映射到同种参考和两个异种犬科动物(狗和北极狐)的基因组,证明参考偏差显著影响种群基因组分析。研究发现,使用同种参考基因组可以增强对种群规模历史和重组率的推断,提高对遗传变异的检测,提供更准确的核苷酸多样性和遗传分化估计,并影响基因组数据的生物学解释。这一发现对其他非模式生物基因组研究有广泛影响,这说明非模式生物仍需要组装出高质量的、物种特异性的基因组资源。考虑到基因组参考偏差,对高度分化的参考基因组进行定位产生的结果应该谨慎解释。
华命生物产品服务一览
华命生物目前已开通微信公众号、抖音、知乎、B站、小红书等线上平台,欢迎感兴趣的老师扫码关注了解更多内容!