生物学家的绘图方法阐明了新蛋白质的路径

2023-07-11 15:09:05冷酷的灯泡

德克萨斯大学达拉斯分校的科学家正在利用机器学习来研究蛋白质(执行基本生命功能的分子),其方式可能会影响蛋白质工程、人类健康以及与传染病相关的蛋白质的进化追踪。

生物学家的绘图方法阐明了新蛋白质的路径

在不断发展的蛋白质设计领域,研究人员研究蛋白质的进化历史——它们的结构和功能如何因基因突变而随着时间的推移而变化——并可以利用这些信息来设计新的蛋白质,用于对抗疾病或实现生物技术应用等目的。自然界中不存在新的蛋白质。

由自然科学与数学学院生物科学副教授FaruckMorcos博士领导的团队正在使用先进的计算机技术来生成3D“景观”,使科学家能够直观地了解如何设计可行的新蛋白质。

计算生物学博士生CheyenneZieglerMS说:“这种潜在的生成景观代表了蛋白质建模的进步,与我们发布的软件一起,对于那些寻求生成、工程或研究蛋白质及其功能的人来说是一个可用的工具。”是4月19日在《自然通讯》在线发表的一篇论文的主要作者之一,该论文描述了这项工作。莫科斯是该研究的通讯作者。

蛋白质由称为氨基酸的分子构建块序列组成。蛋白质序列为研究人员提供了了解其在体内功能的线索。

“我们的新框架就像一个路线图,”莫科斯说。“我们不是简单地分析现有的蛋白质序列,而是着眼于蛋白质的进化,并构建图谱,既查看已经存在的蛋白质,又生成并绘制出潜在的序列。”

Morcos表示,使用变分自动编码器(VAE)——一种结合了神经网络和共同进化模型的无监督学习模型,这是研究小组开发的一种推理技术——科学家可以根据蛋白质序列的进化变化和特定功能对蛋白质序列进行分类,然后生成与蛋白质序列相似的新序列。组成,以及它们与现实世界功能的兼容性的评级。

在这里,颜色而不是高度代表每个坐标的蛋白质适合度水平。景观中的每个像素代表250,000种潜在生成的蛋白质之一,现有的蛋白质在地图中重叠。图片来源:德克萨斯大学达拉斯分校

“该领域最近的重点已转向使用机器学习方法来预测蛋白质结构和了解蛋白质序列属性。蛋白质的序列空间非常大,因此识别可行的序列是一个难题,”Morcos说。

莫科斯和他的团队根据相似的特征绘制了蛋白质序列数据。

“在这个虚拟环境中,蛋白质彼此越接近,它们的功能就越相似,”他说。“这张图暗示了新蛋白质在哪里发挥作用的机会更大——随着蛋白质的进化,可能会出现许多突变,但很少有适合存在的突变。”

UTD研究人员使用数学方法在虚拟景观中创建峰和谷。这些屏障代表了一组不太可能的序列,有助于在功能或进化轨迹方面隔离蛋白质组,类似于地理边界如何隔离动物群,然后这些动物群的进化与其他孤立地区的动物不同。

颜色编码提供了每个坐标的第三维描述。已经存在的蛋白质也被包括在内并且集中在黑暗区域。

“这种蛋白质是否适合发挥其功能?它看起来有多像真正的蛋白质?深蓝色区域是高适应性的山谷,其中大多数蛋白质看起来像是可以存在的东西。这些序列可能会成为真正的蛋白质,”莫科斯说道。“颜色较亮的区域较少被探索,而且可能不太适合。”

莫科斯说,他们的系统还可以在称为注释的过程中对未知功能的蛋白质进行分类。

“现有的大多数蛋白质序列还没有注释——指示功能或位置的标签,”他说。“我们只是不知道它们的作用。这就是为什么科学家投入如此多的努力来准确预测蛋白质的功能。我们的图谱是通过了解其邻居的作用来推断新蛋白质功能的有效方法。”

推荐阅读

阅读排行