在进行任何实验之前,教AI预测细胞的外观

如果你曾经试图猜测细胞在药物或基因编辑后如何改变形状,你就会知道这既是科学,也是艺术,而且大多是昂贵的试错过程。成像成千上万的病症很慢;探索数百万是不可能的。

《自然通讯》上的一篇新论文提出了另一种方法:直接从分子读数模拟细胞“后”图像,这样你可以在拿起移液器前预览形态。团队称他们的模型为MorphDiff,这是一个由转录组引导的扩散模型,即基因在扰动后被调高或调低的模式。

从高层面看,这个想法颠覆了熟悉的工作流程。高通量成像是一种经过验证的方法,可以发现化合物的机制或发现生物活性,但对每一个候选药物或CRISPR靶点进行剖析是不可行的。MorphDiff 从已知基因表达和细胞形态的情况学习,然后仅以 L1000 基因表达谱为条件,生成逼真的扰动后图像,无论是从零开始还是将对照图像转换为扰动后的图像。该观点认为,在大型药物和遗传数据集中,对未被发现的扰动进行竞争性准确性,加上作用机制(MOA)检索的提升,可以与真实图像媲美。

由MBZUAI研究人员领导的这项研究始于一个生物学观察:基因表达最终驱动蛋白质和路径,塑造细胞在显微镜下的外观。映射不是一对一的,但有足够的共享信号用于学习。对转录组的条件条件还有一个实用好处:公开可访问的L1000数据远多于配对形态学,这使得覆盖更广泛的扰动空间变得更容易。换句话说,当新化合物出现时,你很可能会找到它的基因特征,MorphDiff 就可以利用这些特征。

在幕后,MorphDiff融合了两部分。首先,形态学变分自编码器(MVAE)将五通道显微镜图像压缩到紧凑的潜在空间中,并学习以高感知精度重建它们。其次,潜在扩散模型学习在该潜空间中去噪,通过注意引导L1000矢量引导每一步去噪。

扩散在这里很合适:它本质上对噪声具有强韧性,而潜空间变体足够高效,可以在保持图像细节的同时训练。团队实现了基因到图像(G2I)生成(从噪声开始,转录组条件)和图像到图像(I2I)转化(利用相同的转录组条件将对照图像推向扰动状态)。后者无需重新训练,这得益于类似SDEdit的过程,这在你想解释相对于对照的变化时非常有用。

产生上镜照片是一回事;拍摄生物上相符的照片又是另一回事。论文同时兼顾两者:在生成方面,MorphDiff 采用了 FID、Inception Score、覆盖率、密度和基于 CLIP 的 CMMD 等标准指标,以 GAN 和扩散基线进行基准测试。在JUMP(遗传学)和CDRP/LINCS(药物)测试中,MorphDiff的两种模式通常先行和后行,显著性检验则在多个随机种子或独立对照板上进行。结果是一致的:更好的保真度和多样性,尤其是在实际价值存在的值外扰动中。

对生物学家来说,更有趣的是,作者不仅仅关注图像美学,还探讨了形态特征。他们提取数百个CellProfiler特征(纹理、强度、粒度、跨通道相关性),并询问生成的分布是否与真实情况相符。

在并排比较中,MorphDiff的特征云与真实数据的匹配度比IMPA等基线更为接近。统计检验显示,超过70%的生成特征分布与真实特征无异,特征分布图显示模型正确捕捉了与对照组在最受扰动特征上的差异。关键是,该模型还保留了基因表达与形态特征之间的相关结构,比以往方法更符合真实情况,这表明它建模的不仅仅是表面样式。

药物效果将这一故事扩展到成千上万的治疗方案。团队利用DeepProfiler嵌入作为紧凑的形态指纹,证明了MorphDiff生成的剖面具有判别性:训练于真实嵌入的分类器也能通过扰动区分生成的剖面,并且药物效应之间的两对距离得以保持。

。给定查询画像,你能找到具有相同机制的参考药物吗?MorphDiff生成的形态学不仅超越了以往的图像生成基线,还优于仅靠基因表达的检索,准确度接近真实 图像的水平。在top-k检索实验中,较最强基线平均改善为16.9%,仅用转录组为8.0%,且在多个k值和平均精度、富集折叠等指标上表现出稳健性。这是一个强烈信号,表明模拟形态学包含与化学结构和转录组学互补的信息,即使分子本身看起来毫无相似之处,也能帮助找到相似机制。

论文还列出了一些目前的局限性,暗示未来可能有改进的空间。扩散推断速度相对较慢;作者建议插入更新的采样器以加快生成速度。时间和集中力(生物学家关注的两个因素)由于数据限制并未被明确编码;当匹配数据集可用时,架构可以将其作为额外条件。而且由于MorphDiff依赖扰动基因表达作为输入,它无法为缺乏转录组测量的扰动生成形态学;一个自然的延伸是与预测未见药物基因表达的模型进行链式连接(论文中以GEARS为例)。最后,随着偏离训练分布的距离,泛化必然减弱;更大、更匹配的多模态数据集会有所帮助,同时对结构、文本描述或染色质可及性等更多模态的条件也将有帮助。

这在实际作中意味着什么?想象一个拥有庞大L1000文库但成像预算较小的筛选团队。MorphDiff成为表型副驾驶:生成新化合物的预测形态,按已知机制的相似性进行聚类,并优先成像以确认。由于模型还揭示了可解释的特征变化,研究人员可以深入了解其内部情况。内质网的结构和线粒体强度是否如我们预期的那样变化?两个结构上无关的分子是否落在了同一个表型邻里?这些假说加速了机制的寻找和再利用。

更宏观的是,生成式人工智能终于达到了一个可以替代第一阶段实验的真实度。我们已经看到文本转图像模型在消费领域爆发式增长;这里,一个转录组到形态学的模型表明,相同的扩散机制也能做出科学上有用的工作,比如捕捉细微的多通道表型,并保留使这些图像不仅仅是视觉装饰的关系。它不能取代显微镜。但如果能减少你要查的车牌数量,那你就能花时间和金钱去验证那些重要的命中点。

免责声明:

1、本网站所展示的内容均转载自网络其他平台,主要用于个人学习、研究或者信息传播的目的;所提供的信息仅供参考,并不意味着本站赞同其观点或其内容的真实性已得到证实;阅读者务请自行核实信息的真实性,风险自负。

2、如因作品内容、版权和其他问题请与本站管理员联系,我们将在收到通知后的3个工作日内进行处理。