Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

深度学习与化学语言模型结合,用于药物从头设计,登Nature子刊

图片

编辑 | X

从头药物设计旨在从零开始生成具有特定化学和药理学特性的分子。

近日,苏黎世联邦理工学院的化学家开发了一种新的计算机程序,可以根据蛋白质的三维表面快速、轻松地生成活性药物成分。

研究人员提出了一种利用基于相互作用组(interactome)的深度学习的计算方法,用于基于配体和结构的类药物分子生成。

「这是药物发现的真正突破。」苏黎世联邦理工学院化学与应用生物科学系教授 Gisbert Schneider 说。 

这种方法利用了神经网络和化学语言模型的独特优势,为特定应用的强化、迁移或少样本学习的需求提供了替代方案。

相关研究以《Prospective de novo drug design with deep interactome learning》为题,于 4 月 22 日 发布在《Nature Communications》上。

图片

论文链接:https://www.nature.com/articles/s41467-024-47613-w

计算从头设计包括从头开始自主生成具有所需特性的新分子。化学语言模型 (CLM) 是一种机器学习技术,旨在处理和学习表示为序列的分子结构(例如,SMILES)。CLM 已经在新的生物活性分子的重新设计中发现了许多应用。

尽管已经引入了各种基于结构的从头设计方法,但它们的潜在应用尚未得到广泛探索。

最近的科学家集中在研究分子相互作用网络,称为相互作用组,它涵盖各种类型的相互作用,例如蛋白质-蛋白质、药物-靶标相互作用和药物-药物关系。分析这些相互作用组可以预测以前未知的相互作用,并给出对网络拓扑的深入了解。

深度学习和化学语言模型结合

为了全面研究药物-靶标相互作用组,苏黎世联邦理工学院研究人员提出了一种将 CLM 与基于相互作用组的深度学习相结合的方法。此深度学习模型被命名为 DRAGONFLY(基于药物靶标相互作用的新型生物活性分子的生成)。

对于任何具有已知三维形状的蛋白质,该算法会生成增加或抑制蛋白质活性的潜在药物分子的蓝图。然后化学家可以在实验室合成和测试这些分子。

该算法所需要的只是蛋白质的三维表面结构。在此基础上,它根据「锁与钥匙」原理设计出与蛋白质特异性结合的分子,这样它们就可以与蛋白质相互作用。

该方法采用了由图变换神经网络(GTNN)和利用长短期记忆(LSTM)的 CLM 组成的神经网络架构。

图片

图示:DRAGONFLY 架构和工作流程。(来源:论文)

DRAGONFLY 方法采用神经网络架构。该方法利用 GTNN 模型对输入分子图进行编码,该分子图表示为配体的 2D 图和蛋白质结合位点的 3D 图。GTNN 将图转换为压缩的一维 (1D) 特征向量。随后,使用基于 RNN-LSTM 架构的 CLM 进行分子生成过程,将该特征向量解码回相应的分子字符串。

与依赖于单个分子迁移学习的传统 CLM 不同,该方法利用基于相互作用组的深度学习,能够跨多个节点整合来自靶标和配体的信息。DRAGONFLY 能够处理小分子配体模板以及 3D 蛋白质结合位点信息。它在不同的化学字母表上运行,不需要通过针对特定应用的迁移或强化学习进行微调。

此外,它能够将所需的物理和化学特性纳入输出分子的生成中。该研究介绍了 DRAGONFLY 在基于结构的从头设计中的前瞻性应用,特别是针对一个或多个特定大分子靶标生成具有所需生物活性特征的配体。

从头药物设计

DRAGONFLY 解决了生成分子设计方法中常见的一些挑战。事实证明,该方法:

  • 与针对药物样配体模板的分别微调的基于 RNN 的 CLM 相比,实现了相似甚至更好的结果。
  • 使用 3D 蛋白质结合位点实现基于结构的设计。
  • 有效地将所需的物理和化学性质纳入生成的分子中。它能够结合基于结构和基于配体的方法,以及整合所需特性的能力,使其成为药物化学的潜在有用工具。

DRAGONFLY 能够「零样本」构建具有特定生物活性、可合成性和结构新颖性的化合物库。

图片

图示:使用 DRAGONFLY 和定量构效关系(QSAR)模型进行属性转换。(来源:论文)

为了主动评估基于蛋白质结构的药物设计的深度相互作用组学习框架,产生了针对人类过氧化物酶体增殖物激活受体(PPAR)γ 亚型结合位点的潜在新配体。

图片

图示:使用 DRAGONFLY 进行基于结构的从头设计的结果。(来源:论文)

一流的设计是化学合成的,并经过计算、生物物理和生物化学表征。鉴定出有效的 PPAR 部分激动剂,证明其对核受体和脱靶相互作用具有良好的活性和所需的选择性。

图片

图示:蛋白质-配体共结晶。(来源:论文)

配体-受体复合物的晶体结构测定证实了预期的结合模式。

这一成功成果积极倡导基于相互作用组的从头设计在生物有机和药物化学中的应用,从而能够创建创新的生物活性分子。

基于相互作用组的深度学习可作为「零样本」学习的概念验证,可以针对小分子药物发现中的特定应用进一步调整和定制,最终实现在生物有机化学和药物化学中更有效的命中和先导发现。

通过利用数据驱动的深度学习和交互网络,这种方法为基础模型提供了新的途径,从而实现定制的分子设计策略和创新候选药物的发现。

「新算法潜力巨大。我们的研究使药物研究中的生成式 AI 可以进入蛋白质世界。」Schneider 说。对于人体内所有不与任何已知化合物相互作用的医学相关蛋白质来说尤其如此。

理论药物发现深度学习
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

图神经网络技术

图网络即可以在社交网络或其它基于图形数据上运行的一般深度学习架构,它是一种基于图结构的广义神经网络。图网络一般是将底层图形作为计算图,并通过在整张图上传递、转换和聚合节点特征信息,从而学习神经网络基元以生成单节点嵌入向量。生成的节点嵌入向量可作为任何可微预测层的输入,并用于节点分类或预测节点之间的连接,完整的模型可以通过端到端的方式训练。

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因。

迁移学习技术

迁移学习 是属于机器学习的一种研究领域。它专注于存储已有问题的解决模型,并将其利用在其他不同但相关问题上。比如说,用来辨识汽车的知识(或者是模型)也可以被用来提升识别卡车的能力。计算机领域的迁移学习和心理学常常提到的学习迁移在概念上有一定关系,但是两个领域在学术上的关系非常有限。

药物发现技术

在医学,生物技术和药理学领域,药物发现是发现新候选药物的过程。

推荐文章
暂无评论
暂无评论~