参考文献

注册

 

发新话题 回复该主题

DOCKSTRING简单的分子对接产生更 [复制链接]

1#
北京白癜风哪个医院好 https://jbk.39.net/yiyuanzaixian/bjzkbdfyy/nxbdf/

大家好,今天给大家分享一篇22年七月剑桥大学发表在在JCIM上的一篇论文,《DOCKSTRING:EasyMolecularDockingYieldsBetterBenchmarksforLigandDesign》

DOCKSTRING为对接和可视化提供了一个简单的API

摘要

用于药物发现的机器学习领域见证了新方法的爆炸式增长,这些方法通常以简单的物理化学性质为基准,如溶解度或一般的药物相似度。然而,这些性质不能很好地代表客观性功能在药物设计中,主要是因为它们不依赖候选化合物与靶点的相互作用。相比之下,分子对接是一种广泛应用于药物发现的方法,并用来估计亲和力的大小。然而,对接研究需要大量的领域知识,阻碍了许多研究的进行。

DOCKSTRING主要组成部分

在文章中,作者介绍DOCKSTRING,一个用于使用对接分数对ML模型进行了有意义和健壮的比较。

DOCKSTRING由三个组件组成/p>

一个开源Python包,用于直接计算对接分数。一个广泛的数据集,包含58个医学相关靶标的超过26万个分子的对接分数和pose。一组药学相关的基准任务,如选择性激酶抑制剂的虚拟筛选或从头设计。

总的来说,作者的结果表明,相对于简单的物理化学性质,对接分数是一个更接近真实的评价指标。

当前工业级药物发现领域正经历一场危机,尽管技术进步显著,但研发成本却以数量级增长,而候选分子成功的概率却在下降,这种现象的部分原因是缺乏足够的预测性实验和计算模型。机器学习(ML)通过提供更快、更精确的模型,被广泛认为是解决这一问题的一种有前途的技术。药物发现的ML方法的快速发展导致越来越需要高质量的基准,以便对这些方法进行评估和比较。在理想情况下,一个好的基准测试应该是对应一个真实的问题而设置用精确的实验数据(例如,实验生物活性数据)测试一个模型,那么,在基准测试上的强劲表现将意味着在现实任务上的强劲表现。但是真实实验数据的缺乏导致长期以来许多的评测都是在一些简单的计算性质上进行的。近年来,大家也开始怀疑在这些测试基准上的测试结果是否真的能代表模型在真实药物设计上的性能?

作者通过参考文献认为,通过分子对接作为评测手段相对于简单的理化性质有以下几点好处:

可解释性:对接分数在预测的结合亲和度方面具有结构性解释,与部分蛋白家族的实验值相关。相关性:学术界和产业界的药物化学家经常使用对接分数来发现虚拟筛选实验中的hit。对接姿势也被用来识别和挖掘化合物优化过程中的重要交互作用。计算成本:与自由能扰动或密度泛函理论等其他计算方法不同,对接分数通常可以在一分钟内计算出来。具有挑战性的基准:分子结构和对接分数之间的关系是复杂的,因为对接分数取决于配体-靶体复合体的三维结构。因此,基于对接的任务需要ML模型学习复杂的3D特征。

尽管前面已经有许多工作来将对接作为评测机器学习模型的基准,但是或多或少存在一系列的问题。如提供的装饰器不够简单,还需要专家定义的高质量输入文件,数据集的bias严重,无法客观的反映出机器学习模型的真实能力。

因此,作者通过DIOCKSTRING来简化这一切,首先是通过这个包,可以通过仅仅几行代码就可以构建完整的对接计算pipeline,同时提供了一个高质量的对接好的数据集,并提供了一组药理学相关的基准测试任务。让研究人员能快速的,客观的在不同的任务上训练和测试自己的机器学习模型。

在python包构建对接流程上,作者主要通过rdkit,OpenBaBel和AotoDockTools来构建(图1)。

图1

在基准数据集构建上,作者主要从DUDE数据集获取了蛋白靶标,同时通过活性数据库采集活性数据,并只保留了活性数据量大于的靶点。并为每个靶点构建了阴性数据。基准测试。DOCKSTRING的一个对接的组合包和大数据集使它能够支撑各种各样的对象用于监督学习、主动学习的基准任务,迁移学习,元学习,分子优化,等等一些机器学习任务。

作者为三个问题制定了基准任务设置:回归、虚拟筛选和从头设计。回归基准相对标准,适用范围广;它主要是说明了预测对接分数的难度。虚拟筛选评估模型大型文库中选择活性分子的能力。从头设计评估生成优化的新分子的能力。作者为了展示自己设置的合理性,对数据集进行了一系列分析,如性质分布(图2、3、4)

图2:分子性质的分布,数据集中的大多数分子都符合“利平斯基五法则”

图3:DOCKSTRING数据集的聚类分析。(左)使用Tanimoto距离的DBSCAN算法分组的聚类分布。(中)同一簇内分子间(蓝色)和不同簇间(红色)归一化Jaccard距离计数。(右)按支架分组的簇分布。图中信息说明分子的多样性。

图4:LCK与DOCKSTRING数据集中的其他三个靶标对接得分的相关性(以kcal/mol为单位):来自同一家族的靶标SRC(左)、核受体ESR2(中)和环氧合酶PTGS2(右)。与靶点独立的分子特性(如logP和QED)不同,根据靶点之间的结构相似性,对接得分显著相关。

作者不仅进行了数据集的分析,在文章中还进行了许多的基线测试。展示出提出的评测方法和数据的合理性。

总结

随着DOCKSTRING的发布,作者希望使基于对接的基准测试尽可能易于访问,从而使科学界能够针对药物发现中具有挑战性的相关任务对算法进行基准测试。

DOCKSTRING的优点在于:

简单的Python包能够自动计算对接分数和姿势,即使是几乎没有领域专业知识的研究人员也可以快速使用,促进新标签的获取和虚拟筛选或分子优化的复杂工作流程的设计。同时提供的大规模多样性的数据集多样性允许用户训练针对各种任务的模型。此外,每个基准提供了经过策划和标准化的训练和测试集,以便对模型进行公平的比较。这一考虑对于化学的ML特别重要,因为不同的数据集分割会由于化学空间的偏见和采样不足等原因而导致很大程度上不同的结果。而作者的训练和测试集是用聚类分裂构建的,以最大限度地减少过拟合和数据泄漏的机会。

版权信息

本文系AIDDPro接受的外部投稿,文中所述观点仅代表作者本人观点,不代表AIDDPro平台,如您发现发布内容有任何版权侵扰或者其他信息错误解读,请及时联系AIDDPro(请添加

分享 转发
TOP
发新话题 回复该主题