理解种群大小如何塑造基因组结构及遗传变异的进化命运,是基因组进化研究中的核心问题之一。现有研究多集中于SNP,而结构变异在基因组架构塑造中的作用仍缺乏系统认识。由于多数相关研究依赖短读长和参考基因组方法,结构变异的真实丰度、分布特征及其适合度效应在很大程度上仍未被充分揭示。鸟类基因组在染色体结构上整体较为保守,但在重复序列组成、基因组大小及种群历史方面表现出显著差异,为比较不同有效群体大小背景下结构变异的演化模式提供了理想体系。
近日,国外科研团队于2025年12月11日在国际著名期刊Science上发表一篇标题为“Multispecies pangenomes reveal a pervasive influence of population size on structural variation”的研究性论文,系统比较了三种灌丛松鸦的基因组,发现群体规模会显著影响结构变异和基因拷贝数变异的积累方式,并且这些变异会直接改变基因表达。

一、研究设计与种群数量背景
本研究基于北美灌丛松鸦属(Aphelocoma)三个近缘物种的群体尺度长读长基因组数据,包括伍德豪斯灌丛松鸦(AW)、岛屿灌丛松鸦(AI)和佛罗里达灌丛松鸦(AC),共采集并测序 44 份血液和组织样本,并引入尤卡坦松鸦作为外群,补充分析了加利福尼亚灌丛松鸦和斯特勒松鸦等近缘类群。所有样本均采用 PacBio HiFi 测序,并构建了部分分型的二倍体基因组组装,其中 AW 个体进一步结合 Hi-C 数据完成染色体级拼接与高质量注释。结合核型分析、基因组注释及高比对质量区域筛选,系统重建了该类群的种群大小历史。PSMC 与贝叶斯系统地理分析一致表明,三个物种在核苷酸多样性和有效种群大小上存在显著梯度(AW > AC > AI),其中 AW 的有效种群大小约为 AI 的 55 倍。岛屿灌丛松鸦表现出显著的纯合片段延长和较高比例的单系单倍型结构,反映其经历了强烈而持久的种群瓶颈。

图1:灌丛松鸦的种群规模呈梯度分布
二、基因组大小与卫星 DNA 景观的快速演化
研究发现,不同灌丛松鸦物种之间的基因组大小存在显著差异,且与经典理论预测相反,最大基因组出现在有效种群规模最大的伍德豪斯灌丛松鸦中,而岛屿灌丛松鸦及外群物种的基因组明显更小。单拷贝基因组区域在不同物种间大小高度一致,表明基因组规模差异主要由重复序列的变化所驱动。进一步分析显示,重复 DNA 约占鸟类基因组的四分之一,其中卫星 DNA 是最主要的重复类型,其丰度在不同物种间呈现出与基因组大小高度一致的变化模式。部分卫星 DNA 在灌丛松鸦谱系中发生显著扩张,尤其富集于性染色体,而在有效种群规模较小的物种中则因奠基效应和遗传漂变而明显缩减。此外,小种群物种中端粒重复序列的整体丰度降低,也符合群体遗传学的理论预期。这些结果表明,卫星 DNA 与转座元件的快速演化是驱动基因组大小变化的关键机制,而历史种群大小过程在塑造鸟类基因组重复序列景观中发挥了核心作用。

图2:基因组大小和卫星序列格局的动态变化
三、泛基因组图的构建与组成
为系统刻画结构变异,本研究采用 Pangenome Graph Builder(PGGB)与 minigraph 构建灌丛松鸦属的泛基因组图。PGGB 通过无参考的全对全比对形成染色体级社区,能够在碱基分辨率下解析不同尺度的结构变异;minigraph 作为补充方法,以顺序方式构建泛基因组,稳健识别较大尺度变异。基于 90 个单倍型及参考基因组构建的 PGGB 泛基因组图整合了超过 80% 的输入序列,并形成与染色体高度对应的社区结构。图结构分析显示,高度重复的染色体(如 W 染色体)压缩度较低,而重复序列较少的染色体压缩度更高;节点深度分布能够清晰反映染色体内的重复区、端粒及潜在着丝粒结构,少数低深度区域可能与大型倒位对构图过程的影响有关。
进一步将泛基因组序列划分为核心序列与附属序列后发现,三种物种均以核心序列为主,其中遗传多样性最低的岛屿灌丛松鸦具有最高的核心序列比例和最低的附属序列比例。这一模式与物种间有效种群大小及遗传多样性的差异高度一致。与其他脊椎动物的泛基因组研究相比,该研究中的灌丛松鸦泛基因组在核心与附属序列比例上既呈现共性特征,也体现了遗传多样性水平和数据分辨率对泛基因组结构的共同影响。

图3:泛基因组图捕获了全基因组的结构变异
四、种内与种间的结构变异多样性
研究进一步分析了SV在基因组中的分布特征及其与有效群体大小的关系。结果显示,尽管 SV 的识别对参考基因组和方法较为敏感,其总体空间分布模式在不同分析框架下高度一致。SV 显著富集于染色体末端,并与重组率呈正相关,在微染色体中密度更高;相反,在高度保守的非外显子调控元件中明显匮乏,表明其整体受到强烈的选择。从功能区段看,SV 在内含子中最为常见,外显子中单位长度密度亦偏高,提示其形成可能与生殖系转录相关。不同物种间,变异总量呈 AW > AC > AI 的梯度;相对于近中性的 SNP,小群体物种 AI 中 indel 和 SV 的相对比例显著升高,支持 indel/SV 整体更具有害性,并在大群体中被更有效清除。跨物种比较中,SV 的共享程度明显低于 SNP,表明其周转速度更快。最后,倒位在物种间高度分化且断点邻近重复序列富集,说明其可能参与适应性分化。

图4:SNP、插入缺失和结构变异的比较分析
五、结构变异的适合度效应分布
本研究系统评估了SV相对于SNP和indel的适合度效应及其进化后果。通过基于位点频率谱(SFS)的最大似然方法,作者估计了不同突变类型中新生突变的适合度效应分布(DFE),以尺度化选择系数 γ(Ne·s)衡量选择强度。结果一致表明,在各类基因组区段中,SV 的 γ 值整体更偏负,说明 SV 在平均意义上比 SNP 和 indel 更具有害性。进一步分析突变长度与等位基因频率的关系发现,突变长度与有害程度呈正相关,且在有效群体大小较小的物种中,大型、潜在有害的 SV 更易在遗传漂变作用下达到较高频率。在适应性进化方面,通过估计α(由正选择驱动固定的替换比例),研究发现大多数物种中 SV 和 indel 几乎不发生适应性固定,群体内主要积累分离的有害等位基因;但在特定物种中,indel 和 SV 在部分基因组区段仍表现出显著的适应性固定信号。该研究表明 SV 通常承受更强的负向选择,其进化命运受群体大小和基因组背景显著影响。

图5:SV的DFE
六、基因拷贝数变异与基因表达
基因拷贝数变异CNVs是结构变异的重要组成部分,但它们在不同物种中的分布以及对基因表达的影响仍知之甚少。通过构建全基因组尺度的基因拷贝数图谱,作者在 Aphelocoma 属的 96 个单倍型、13,515 个常染色体基因中检测到大量 CNV,发现经历 CNV 的基因比例与 SNP 处于相同数量级,甚至更高。不同物种间 CNV 分布差异显著,其中 AI拥有最多发生 CNV 的基因,其数量在多种过滤条件下均明显高于AC和AW,并且以基因缺失事件为主,缺失频率远高于基因重复。大量 CNV 在 AI 中表现为物种特异型,并伴随更多基因缺失或截短的纯合基因型。结合多组织转录组数据进一步表明,基因拷贝数与基因表达水平之间存在显著正相关关系,且在 AW 中这一效应在组织内及跨组织层面均可检测。以上结果表明,CNV 在不同群体背景下呈现出高度不均一的分布,并通过直接调控基因表达参与塑造基因组和表型演化。

图6:拷贝数变异与基因表达
结语
本研究以三种北美灌丛松鸦为研究对象,结合群体尺度的长读长基因组组装和多物种泛基因组分析,系统比较了结构变异(如插入、缺失和倒位)以及基因拷贝数变异的进化特征。研究发现,基因组大小和卫星重复在近缘物种间呈现快速分化;结构变异的数量随有效群体大小增加而上升,但以基因缺失为主的 CNV 在小群体物种 AI 中显著富集,说明其更强的有害性及遗传漂变驱动的累积效应。适应性固定的证据整体较为有限,仅在群体规模最大的 AW 中表现得相对一致。进一步的转录组分析表明,基因拷贝数变化可直接影响基因表达水平,强调了结构变异在塑造基因组结构和表型演化中的重要作用。