从静态快照中获取动态信息

2024-04-28 08:42:01深情的哈密瓜

想象一下,根据比赛开始10秒拍摄的静态照片来预测肯塔基德比赛马的确切完赛顺序。与研究人员使用单细胞RNA测序(scRNA-seq)研究胚胎发育、细胞分化、癌症形成和免疫系统如何反应时所面临的挑战相比,这一挑战相形见绌。

从静态快照中获取动态信息

在今天发表在《美国国家科学院院刊》上的一篇论文中,芝加哥大学普利兹克分子工程学院和化学系的研究人员创建了TopicVelo,这是一种强大的新方法,使用scRNA-seq的静态快照来研究细胞和基因如何随着时间的推移而变化。

该团队采用了跨学科的协作方法,融合了经典机器学习、计算生物学和化学的概念。

“就无监督机器学习而言,我们使用了一个非常简单、行之有效的想法。就我们使用的转录模型而言,这也是一个非常简单、古老的想法。但是当你把它们放在一起时,它们会做一些更强大的事情PME分子工程和医学助理教授SamanthaRiesenfeld说道,他与化学系教授SuriyanarayananVaikuntanathan以及他们的共同学生、芝加哥大学化学博士共同撰写了这篇论文。候选人程弗兰克高。

伪时间的麻烦

研究人员使用scRNA-seq获得强大而详细的测量结果,但本质上是静态的。

“我们开发TopicVelo是为了从scRNA-seq数据推断细胞状态转变,”Riesenfeld说。“从这类数据中很难做到这一点,因为scRNA-seq具有破坏性。当你以这种方式测量细胞时,你就会破坏细胞。”

这使得研究人员能够了解细胞被测量/破坏的那一刻的快照。虽然scRNA-seq提供了最佳的转录组范围快照,但许多研究人员需要的信息是细胞如何随时间转变。他们需要知道细胞如何癌变或特定基因程序在免疫反应期间如何表现。

为了帮助从静态快照中找出动态过程,研究人员传统上使用所谓的“伪时间”。在静止图像中观察单个细胞或基因的表达变化和生长是不可能的,但该图像还捕获了同一类型的其他细胞和基因,这些细胞和基因可能在同一过程中稍远一些。如果科学家正确地将这些点连接起来,他们就可以深入了解这个过程随时间的变化情况。

连接这些点是一项困难的猜测,因为我们假设外观相似的细胞只是位于同一路径上的不同点。生物学要复杂得多,每个基因都有错误的开始、停止、爆发和多种化学力。

传统的伪时间方法着眼于细胞转录谱之间的表达相似性,RNA速度方法着眼于这些细胞内mRNA的转录、剪接和降解的动态。

这是一项很有前途但处于早期阶段的技术。

作者在论文中写道:“RNA速度的承诺与现实之间持续存在的差距在很大程度上限制了它的应用。”

为了弥补这一差距,TopicVelo抛开了确定性模型,采用了一种难度大得多的随机模型,并从中汲取见解,该模型反映了生物学不可避免的随机性。

“细胞本质上是随机的,”该论文的第一作者高说。“你可以拥有双胞胎或基因相同的细胞,但它们长大后会变得非常不同。TopicVelo引入了随机模型的使用。我们能够更好地捕获转录过程中对mRNA转录非常重要的潜在生物物理学。”

机器学习指明了道路

研究小组还意识到另一个假设限制了标准RNA速度。“大多数方法都假设所有细胞基本上都表达相同的大基因程序,但你可以想象细胞必须在不同程度上同时执行不同类型的过程,”里森菲尔德说。理清这些流程是一项挑战。

概率主题建模(一种传统上用于从书面文档中识别主题的机器学习工具)为芝加哥大学团队提供了策略。TopicVelo不是按照细胞或基因的类型,而是按照这些细胞和基因所涉及的过程对scRNA-seq数据进行分组。这些过程是从数据中推断出来的,而不是由外部知识强加的。

“如果你看一本科学杂志,它会按照‘物理学’、‘化学’和‘天体物理学’等主题进行组织,”高说。“我们将这种组织原则应用于单细胞RNA测序数据。所以现在,我们可以按主题组织数据,例如‘核糖体合成’、‘分化’、‘免疫反应’和‘细胞周期’。我们可以拟合特定于每个过程的随机转录模型。”

在TopicVelo解开这些混乱的过程并按主题组织它们之后,它将主题权重应用回细胞上,以说明每个细胞的转录谱中涉及哪种活动的百分比。

Riesenfeld表示,“这种方法有助于我们观察不同过程的动态,并了解它们在不同细胞中的重要性。当存在分支点或细胞被拉向不同方向时,这尤其有用。”

将随机模型与主题模型相结合的结果是惊人的。例如,TopicVelo能够重建以前需要特殊实验技术才能恢复的轨迹。这些改进极大地拓宽了潜在的应用。

高将论文的研究结果与论文本身进行了比较——论文本身是许多研究领域和专业知识的产物。

“在PME,如果你有一个化学项目,很可能会有一个物理或工程专业的学生在从事它,”他说。“这不仅仅是化学反应。”

推荐阅读

阅读排行