计算工具促进新的和改进的鸟类家谱的重建

2024-04-02 09:30:01深情的哈密瓜

一个国际科学家团队建立了迄今为止最大、最详细的鸟类家谱——这张复杂的图表描绘了363种鸟类(占所有鸟类家族的92%)之间9300万年的进化关系。

计算工具促进新的和改进的鸟类家谱的重建

这一进步在很大程度上要归功于加州大学圣地亚哥分校工程师开发的尖端计算方法,以及该大学圣地亚哥超级计算机中心最先进的超级计算资源。这些技术使研究人员能够高精度、快速地分析大量基因组数据,为构建有史以来最全面的鸟类家谱奠定了基础。

4月1日发表在《自然》和《美国国家科学院院刊》(PNAS)上的两篇补充论文详细介绍了这一进展。《自然》杂志报道的更新后的家谱揭示了6600万年前恐龙灭绝的灾难性大灭绝事件之后鸟类进化史的模式。

研究人员观察到早期鸟类的有效种群规模、替代率和相对大脑大小急剧增加,为这一关键事件之后推动鸟类多样化的适应机制提供了新的线索。在《美国国家科学院院刊》上发表的配套论文中,研究人员仔细检查了新家谱的一个分支,发现火烈鸟和鸽子的亲缘关系比之前的全基因组分析显示的亲缘关系更远。

这项工作是鸟类10,000个基因组(B10K)项目的一部分,该项目是由哥本哈根大学、浙江大学和加州大学圣地亚哥分校牵头的多机构努力,旨在为约10,500种现存鸟类生成基因组序列草案。

“我们的目标是重建所有鸟类的整个进化史,”加州大学圣地亚哥分校雅各布斯工程学院电气和计算机工程教授SiavashMirarab说,他是《自然》论文的共同高级作者,也是PNAS论文的第一作者和共同通讯作者。

拼凑过去

这些研究的核心是一套名为ASTRAL的算法,Mirarab的实验室开发该算法以前所未有的可扩展性、准确性和速度来推断进化关系。通过利用这些算法的力量,该团队整合了来自60,000多个基因组区域的基因组数据,为他们的分析提供了坚实的统计基础。

研究人员随后检查了基因组中各个片段的进化历史。从那里,他们拼凑出了基因树的马赛克,然后将其编译成综合的物种树。这种细致的方法使研究人员能够构建一个新的和改进的鸟类家谱,即使在历史不确定的情况下,也能以惊人的精度和细节描绘复杂的分支事件。

米拉拉布说:“我们发现,在分析中添加数万个基因的方法实际上对于解决鸟类物种之间的进化关系是必要的。”“你确实需要所有的基因组数据来恢复65-6700万年前的这段时间内发生的事情。”

该团队之所以能够对海量数据集进行这些分析,是因为Mirarab的实验室设计了在强大的GPU机器上运行的计算方法。他们在加州大学圣地亚哥分校圣地亚哥超级计算机的“Expanse”超级计算机上进行了计算。

在《美国国家科学院院刊》上发表的这项研究中,研究人员仔细检查了更新后的鸟类家谱的一个分支,发现包括火烈鸟和鸽子在内的群体的亲缘关系比之前的全基因组分析显示的亲缘关系更远,并将结果归因于染色体上一个不寻常的区域。4.图片来源:EdBraun(绘图)、DanielJ.Field(鸟类图像)和SiavashMiarab

“我们很幸运能够使用这样一台高端超级计算机,”米拉拉布说。“如果没有Expanse,我们将无法在合理的时间内对如此大的数据集运行和重新运行我们的分析。”

研究人员还研究了不同基因组采样方法对树的准确性的影响。他们表明,两种策略——对每个物种的许多基因进行测序,以及对许多物种进行测序——结合在一起对于重建这段进化历史非常重要。

“因为我们混合使用了这两种策略,所以我们可以测试哪种方法对系统发育重建具有更强的影响,”哥本哈根大学生物学教授、《自然》论文的主要作者JosefinStiller说。

“我们发现,从每个生物体中采样许多基因序列比从更广泛的物种中采样更重要,尽管后一种方法可以帮助我们确定不同群体进化的时间。”

纠正过去

借助先进的计算方法,研究人员还揭示了他们在之前的一项研究中发现的一些不寻常的现象:鸟类基因组中一条染色体的特定部分在数百万年里保持不变,无效基因重组的预期模式。

这种异常现象最初导致研究人员错误地将火烈鸟和鸽子归为进化表亲,因为基于这一未改变的DNA部分,它们似乎密切相关。这是因为他们之前的分析是基于48种鸟类的基因组。

但通过对363个物种的基因组进行重复分析,出现了一个更准确的家谱,使鸽子远离火烈鸟。此外,利用由洛克菲勒大学神经生物学教授ErichJarvis领导的脊椎动物基因组计划(VGP)提供的六个高质量基因组,Mirarab和同事能够检测并推测解释这种令人惊讶的模式。

“令人惊讶的是,这段重组被抑制的时期可能会误导分析,”佛罗里达大学生物学教授、PNAS论文的共同通讯作者爱德华·布劳恩(EdwardBraun)说。“而且由于它可能会误导分析,因此实际上在未来6000万年以上就可以检测到它。这就是最酷的部分。”

下一步

这项工作的影响远远超出了研究鸟类的进化史。米拉拉实验室首创的计算方法已成为重建各种其他动物进化树的标准工具之一。

展望未来,该团队将继续努力构建鸟类进化的完整图景。生物学家正在对其他鸟类的基因组进行测序,希望将家谱扩大到包括数千个鸟类属。

与此同时,由Mirarab领导的计算科学家正在改进他们的算法,以适应更大的数据集,以确保未来研究中的分析能够高速、准确地进行。

推荐阅读

阅读排行