【做计算 找华算】理论计算助攻顶刊,10000+成功案例,全职海归技术团队、正版商业软件版权!经费预存选华算,高至15%预存增值! 随着各个科学领域数据的可用性不断增加,生成模型在加速科学发现方面具有巨大的潜力。生成模型利用从数据集中学习到的有效表示来加速新假设的制定,这些假设有可能对材料的发现产生广泛的影响。在这篇Brief Communication中,IBM欧洲研究院Matteo Manica等人介绍了他们最近提出的用于科学发现的生成式工具包(GT4SD)。这个可扩展的开源库使科学家、开发人员和研究人员能够训练和使用最先进的生成模型,以加速材料设计,推动科学发现。研究背景科学方法在很大程度上推动了上个世纪技术的迅速进步。然而,在一些重要领域,如材料或药物的发现,生产率一直在急剧下降。如今,发现新材料可能需要近十年的时间,成本高达1000万至1亿美元。天然产物及其衍生物的储存库已经在很大程度上被消耗完,自下而上的假设已经表明,在巨大的搜索空间中识别和选择新的和有用的候选物是极具挑战性的,例如,药物类分子的化学空间估计可包含>1033个结构。为了克服这个问题,近年来,基于机器学习的生成模型,如变分自编码器(VAE),生成对抗网络(GAN)已经成为一种实用的方法,可以利用分子结构的不同表示(例如基于文本的SMILES和SELFIES,或基于图形的表示)来设计和发现具有所需属性的分子。与枚举搜索或网格搜索相比,生成模型可以更有效地探索从标准定义的数据中学习到的巨大搜索空间,已经在糖和染料分子的设计,特定靶标的配体,抗癌靶向分子,抗菌肽和半导体材料中得到了应用。与此同时,越来越多的研究者正在努力开发软件包来评估机器学习模型及其在材料科学中的应用。在性能预测方面,发布了用于材料性能预测的模型、数据挖掘工具包和基准测试软件包,如CGCNN、pymatgen、Matminer、Matbench/AutoMatminer等。在生成模型方面,GuacaMol和Moses等通用框架为特定领域的生成模型软件铺平了道路,这些软件在药物发现领域也越来越受欢迎。最近,研究者也提出了很多新的方法。生成流网络(GFN)是一种利用强化学习的思想来提高样本多样性的生成模型,它为图的结构化数据提供了一种非迭代的采样机制。GFN特别适合于分子生成领域中样本多样性难以保证的问题。扩散模型(DM)是学习复杂的高维分布的生成模型,在多个维度上对数据去噪。DM在无条件和有条件的视觉任务中解决样本质量和多样性方面取得了令人印象深刻的结果。条件生成模型已经在分子构象表示以及蛋白质生成与对接等领域得到应用。在这种情况下,由于软件库和工具包可以降低使用生成模型的难度,人们对软件库和工具包的需求也日益增长。考虑到不断增长的模型规模以及训练模型对大量计算资源的巨大需求,这种低成本、简易的软件包开发需求正变得更加迫切。而且,这种趋势在资金充足的机构中的一小群享有特权的研究人员和科学界的其他成员之间造成了不平衡,从而违背了开放、合作和公平的科学原则。图文导读为此,作者开发了用于科学发现的生成式工具包(GT4SD)。这个Python库旨在通过开发一个框架来简化生成模型的训练、执行和开发,从而加速科学发现。如图1所示,GT4SD为所有生成模型提供了一个统一的应用程序注册表,并为每一个属性提供了一个单独的注册表。这不需要用户熟悉开发代码,从而大大降低了使用门槛。此外,模型之间的高度标准化简化了对新模型的集成,促进了容器化或分布式计算系统的使用。GT4SD为访问最先进的生成模型提供了最大的框架,它可以用来执行、训练、微调和部署生成模型,所有这些都可以直接通过Python或通过高度灵活的命令行界面(CLI)来完成。所有预先训练的模型都可以通过托管在Hugging Face Spaces上的web应用程序,直接在浏览器执行。对于高级用户,GT4SD模型中心对在新数据集上训练现有算法的发布过程进行了简化,以便在工作流程中进行即时和持续的集成。GT4SD提供了一组生成假设(推理管道)和微调特定领域的生成模型(训练管道)的功能,与现有的流行库兼容和互操作,包括PyTorch, PyTorch Lightning,Hugging Face Transformers,Diffusers,GuacaMol,Moses,TorchDrug,GFlowNets和MoLeR,也包括广泛的预训练模型和材料设计的应用程序。GT4SD提供了简单的接口,使得生成模型只需要使用几行代码就可以轻易部署。该工具为有兴趣在科学研究中应用最先进模型的研究人员和学生提供了一个环境,使他们能够使用各种各样的预训练模型进行实验,涵盖广泛的材料科学和药物发现应用。此外,GT4SD提供了一个标准化的CLI,用于推理和训练的APIs不会影响对算法细粒度参数的确定和>15种基于预训练模型的web应用程序的能力。图1. GT4SD结构,实现了生成模型的推理和训练管道,GT4SD还提供了用于算法版本控制和共享的实用程序,以便在社区中更广泛地使用。可以说,加速科学发现的最大潜力在于从头分子设计领域,特别是在材料和药物发现方面。随着几项(预)临床试验的进行,第一种人工智能生成的药物获得FDA的批准并进入市场只是时间问题。在一项开创性的研究中,深度强化学习模型(GENTRL)被用于发现有效的DDR1抑制剂,这是一种与纤维化、癌症和其他疾病有关的重要蛋白激酶靶点。总共合成了6个分子,其中4个分子在生化试验中被发现有活性,1个在小鼠体内表现出良好的药代动力学(gentrl-ddr1)。作为应用于分子发现的典型案例,作者依据gentrl-ddr1生成一个相似的分子,提升其估计的水溶性(ESOL)。低的水溶性影响了>40%的新化学实体,因此对药物递送构成了主要障碍,提高溶解度需要探索gentrl-ddr1周围的局部化学空间,以找到优化的先导化合物。图2. 使用GT4SD进行分子发现的案例研究,从使用生成模型设计的化合物开始(gentrl-ddr1),作者展示了如何使用GT4SD快速设计具有所需属性的分子,使用库中可用的一系列算法(两种设置:无条件和条件)。条件模型可以受到化学支架的约束,或者以期望的属性值为条件。图2中显示了如何使用GT4SD处理此任务的流程。在第一步中,可以通过GT4SD的界面访问一组丰富的预训练分子生成模型。有两个主要的模型类可用。第一类由图生成模型表示,如MoLeR或TorchDrug库中的模型,特别是图卷积策略网络和基于流的自回归模型(GraphAF)。第二个模型类是化学语言模型(CLM),它将分子视为文本(SMILES或SELFIES序列)。GT4SD中的大多数化学语言模型都是通过MOSES或GuacaMol库访问的;特别是VAE,对抗自编码器(AAE)或目标增强GAN模型(ORGAN)。第一步,作者从每个模型所学习到的化学空间中随机抽取分子。对生成的分子与gentrl-ddr1的Tanimoto相似性进行评估表明,这种方法虽然产生了许多具有满意ESOL的分子,但并没有充分反映与种子分子的相似性约束(图2,左下)。这是可以预料到的,因为所使用的生成模型是无条件的。作为一种更精细的方法,GT4SD包括基于条件的分子生成模型,可以用自然文本查询(Text+Chem T5)、连续属性约束或分子子结构(scaffolds)(如MoLeR、REINVENT),甚至是属性约束和分子子结构的组合(Regression Transformer)来执行。从这些模型中获得的分子,特别是MoLeR和RT,在很大程度上遵守了相似性约束,并产生了许多与gentrl-ddr1相似度> 0.5的分子。MoLeR和RT将ESOL提高了1M/L以上(图2右)。在一个现实的应用场景中,药物化学家可以手动审查用所描述的配方生成的分子,并有选择地考虑合成和筛选。总结与展望作者所开发的GT4SD是迈向加速材料发现的生成建模环境的第一步。未来,作者下一步将扩展GT4SD的应用领域(例如无机材料、可持续性、地理信息学等)。未来的发展将集中在两个主要组成部分:扩展模型评估和样本属性预测;开发一个共享模型的生态系统,该模型建立在通过现有CLI命令公开的功能之上,用于模型生命周期管理。作者将扩展目前来自GuacaMol和Moses的集成指标,并探索偏差度量,以便根据生成的示例及其属性更好地分析性能。在共享生态系统方面,作者相信GT4SD将进一步受益于直观的应用程序中心,它可以促进预训练生成模型的分发,并使用户能够轻松地根据特定应用程序的自定义数据微调模型。文献信息Matteo Manica, Jannis Born, Joris Cadow, Dimitrios Christofidellis, Ashish Dave, Dean Clarke, Yves Gaetan Nana Teukam, Giorgio Giannone, Samuel C. Hoffman, Matthew Buchan, Vijil Chenthamarakshan, Timothy Donovan, Hsiang Han Hsu, Federico Zipoli, Oliver Schilter, Akihiro Kishimoto, Lisa Hamada, Inkit Padhi, Karl Wehden, Lauren McHugh, Alexy Khrabrov, Payel Das, Seiji Takeda and John R. Smith. Accelerating material design with the generative toolkit for scientific discovery. npj Computational Materials 9, 69 (2023)https://doi.org/10.1038/s41524-023-01028-1