分享好友 最新动态首页 最新动态分类 切换频道
AI研习丨化合物逆合成路线设计方法综述
2024-12-27 02:38


AI研习丨化合物逆合成路线设计方法综述

文/林圣庚,魏冬青,熊毅

摘 要:对目前计算机辅助逆合成分析的方法进行分类总结,介绍了单步逆合成预测方法和多步逆合成路径规划策略,并对它们的优缺点进行分析。最后讨论了现有方法的不足之处,以及自动化逆合成分析面临的潜在挑战和机遇。

关键词:逆合成;路径规划;深度学习;图神经网络;编码器-解码器

虽然多步逆合成路径规划是一个复杂的过程,任何单步逆合成预测的失败都可能破坏整个合成过程,但是 Barbara 等证明了计算机自动综合规划逆合成路线是可能的。虽然单步逆合成预测方法已经有很大改进,但为了完善整个逆合成路线设计,满足目标分子高复杂性的实际要求,还需要提高多步逆合成路线规划的性能。多步逆合成包括单步逆合成预测模块和通过递归应用单步逆合成预测模块,来搜索最优逆合成路径的规划策略。下面重点介绍逆合成路径的规划策略。
逆合成路径规划策略大致可以分为基于蒙特卡罗树搜索(MCTS)的方法、基于专家打分函数的方法、基于与或树的方法、基于深度学习的方法、基于强化学习的方法和基于超图的方法。
MCTS是一种通过逐步改进统计树的决策过程,寻找最优决策并引导逆合成路线走向特定搜索方向的方法。搜索树的自动增长需要多次迭代,迭代次数越多,MCTS 就越接近完美的解决方案。此外,多步逆合成中每步可供选择的路径组合空间是天文数字,但MCTS的策略能够有效地减少搜索空间,找到当前树中最重要的节点Marwin等使用MCTS和符号人工智能来设计逆合成路线。通过将MCTS与指导搜索的扩展策略网络,以及预先选择逆合成步骤的过滤网络相结合设计多步逆合成路线,比基于启发式的传统计算机辅助搜索方法快30倍。Lin等使用带有启发式评分函数的MCTS,构建了一个完全数据驱动的端到端逆合成路线规划系统来规划逆合成路径。
基于专家打分函数的方法是基于化学直觉的启发式算法,例如,由化学家制定的一系列规则给原子键断开、环的断开与形成打分。而机器学习方法又是完全数据驱动的方法, 缺乏专家领域知识。Tomasz等证明,基于专家打分函数的方法和机器学习方法可以协同配合,当神经网络根据高质量、专家编码的反应规则匹配的文献数据进行训练时,可以获得更高的预测精度。
与或树主要适用于结果导向的各种问题,它通过将一个问题进行不断的分解,寻找出不同的解决方案,最后通过判断来找出最适合的解决方案。因此,与或树可以很自然地应用到多步逆合成的搜索策略中。通过将目标分子不断地进行分解,根据分解的方式不同,可以得到不同的前体分子和逆合成路径,最后通过判断来找出最合适的逆合成路线。Zheng等通过将与或树应用到生物合成的路径搜索中,可以有效地对可能的生物合成路径进行采样。
随着深度学习在各领域的蓬勃发展,科学家们也尝试使用深度学习的方法来解决逆合成路径规划问题。Mo等引入了一种数据驱动的方法,利用动态树结构长短期记忆 (tree-LSTM)模型来评估逆合成路径。经过训练的tree-LSTM模型学会将路径级别的信息编码为一个具有代表性的隐向量,促进相似路径的聚类,以帮助解释计算机程序生成多样化的合成路径。Chen等提出了一种基于神经网络的类似A*算法 的逆合成路径搜索算法Retro*,能够有效地寻找高质量的逆合成路径。它将搜索过程维护为一棵与或树,并使用非策略数据学习搜索偏差;然后在神经网络的指导下,在新的规划过程中高效地执行最佳优先搜索。Kim等直接训练深度神经网络生成理想的逆合成反应路径。训练过程是一个自我提升的过程,模型通过不断模仿自己已经成功发现的逆合成路径来提高自己的性能。此外,他们还提出了一种基于正向反应模型的增强方案,实验结果表明该方案显著提高了逆合成问题的求解成功率。Coley等结合人工智能驱动的合成路径规划和机器人控制的实验平台,设计了一个逆合成路线规划系统。合成路线通过归纳数百万个已发表,并在计算机中经过验证的化学反应,提高规划的成功率。
强化学习又称为评价学习或增强学习,是机器学习的范式和方法论之一,用于描述和解决智能体在与环境的交互过程中通过学习策略,以达成回报最大化或实现特定目标的问题。如果将逆合成规划问题描述为一个单人游戏,在游戏中化学家 ( 或计算机程序 ) 的获胜目标是通过一系列关于进行哪种反应的选择,从目标分子推断出反应物,那么逆合成路径规划问题就可以使用强化学习的方法进行解决。John等使用强化学习,根据用户定义的成本度量在每个单步逆合成预测步骤中做出 ( 接近 ) 最优反应的选择。Wang等将MCTS与通过强化学习训练的价值网络结合,提高了在固定搜索时间内找到有效合成路径的成功率。
在传统的图结构中,每条边只能连接两个结点,而超图中的超边可以同时连接大于或等于2个结点。逆合成路径规划树相当于一个有向无环超图,一个起始节点代表一个目标分子,连接到不同节点的超边代表涉及这些对应分子的所有可能反应。因此逆合成路径的规划过程,可以看作超图的动态扩展过程。Philippe等根据类似贝叶斯概率进行超图的动态过滤和扩展,在没有人为干预的情况下自动进行逆合成路径规划。
在这些多步逆合成路径规划策略中, 基于MCTS和基于深度学习的方法是目前最流行的方法。但由于缺乏统一的评价标准,不同的路径规划策略都有其各自的优势和不足。基于深度学习的方法可能是比较有前景的方法,但它是一种数据驱动的基于统计的方法。如果能够将基于数据的统计人工智能与基于知识的符号人工智能结合用于多步逆合成路径规划,可能是一种更有前景的方法。

3 结束语

随着大型化学反应数据库的建立,计算机算力的提高,计算机辅助逆合成分析已经取得了惊人的进步;同时,这些进步也使得研究人员相信实现完全自动化地进行逆合成预测是可行的。但是,目前的研究成果距离逆合成预测的完全自动化还有一段距离。

机器学习方法的性能在很大程度上取决于化学反应数据库的质量,高质量的数据库将加速逆合成的进一步发展。因此,建立统一的高质量化学反应数据库十分必要。

纯数据驱动的机器学习模型有时缺乏可解释性,并且容易受到训练数据的分布影响出现预测偏差。一般来说,机器学习模型更可能从数据集中出现频率高的键断开规则中学习,忽略其他罕见但可能更简单的键断开方式。将数据驱动方法与基于知识的人工智能方法相结合不仅可以提高模型的可解释性,而且可能是减少模型构建偏差,以及为逆合成问题提供新颖有效的解决方案。

现阶段大多数逆合成路径规划算法设计时没有考虑反应条件(如试剂、催化剂、溶剂和温度等),未来可以在逆合成综合规划中添加反应条件来约束逆合成规划的路线

当前的单步逆合成预测评估指标通常是比较top-k的预测准确率,这种评价方式不能全面地评价模型的好坏。而多步逆合成路径规划算法缺乏比较基准,无论是单步还是多步逆合成都尚未形成成熟的评价方法。因此,建立科学和全面的评估标准需要科学家们的共同努力。

提高人工合成化合物的能力可以带来巨大的社会和技术影响。利用人工智能技术,在研究人员的不懈努力下,逆合成分析问题的完全自动化指日可待。


(参考文献略)


选自《中国人工智能学会通讯》
2022年第12卷第11期
人工智能与生命科学专题


↓↓↓ 欢迎加入学会大家庭,获取更多会员专属福利





扫码加入我们
最新文章
利用YouTube玩转独立站营销和SEO
YouTube是世界最大的社交平台之一,也是世界第二大的搜索引擎和世界最大的视频网站。虽然网络上能找到很多关于优化YouTube视频创作和频道运营的教程,但是如何利用YouTube来使您的网站实际受益呢?以下8点建议将会帮助你! 接下来,我们会
选品时如何评估竞争热度:搜索量多少算是竞争不激烈?
讲到选品时,我总是反复强调,除非你家大业大资金雄厚运营彪悍,否则,一定要选择偏冷门的产品。 那什么才算是偏冷门的产品呢? 为了让选品更有针对性、可量化,我专门给出建议:选择Best Seller日销量在50-150单的产品。 这样的产品,大卖
正则表达式(awk、sort 、uniq 、tr 工具)
awk 选项 ‘模式或条件{编辑命令}’ 文件1 文件2…. //过滤并输出文件中符合条件的内容 awk -f 脚本文件 文件1 文件2… //从脚本中调用的编辑指令,过滤并输出内容 awk包含几个特殊的内建变量(可直接用)如下所示࿱
限地区: Apple 苹果AI笔记本电脑 2023Mac mini迷你主机 M28G 256G (实测成都等地有效),2785.21元
新款 Mac mini 搭载 M2 和 M2 Pro 芯片,搭载 M2 芯片的机型:M2 芯片具有 4 个性能核心和 4 个能效核心,10 核图形处理器,16 核神经网络引擎,100GB/s 内存带宽;支持 H.264、HEVC、ProRes 和 ProRes RAW 硬件加速,带有视频解码引擎、视
苹果id贷怎么申请—100%下款+苹果回租id贷24小时
苹果id贷怎么申请—100%下款+苹果回租id贷24小时上汽集团等在嘉兴成立股权投资合伙企业,出资额3亿天眼查App显示,近日,嘉兴屹晨股权投资合伙企业(有限合伙)成立,执行事务合伙人为上海上汽恒旭投资管理有限公司,出资额约3亿人民币,经
【U90(Kiss初恋版)WiFi万能钥匙下载】天语U90 Kiss初恋版WiFi万能钥匙5.1.02免费下载
下载WiFi万能钥匙,认准官方正版!免费安全WiFi热点,无忧一键连接。日常任务随时做,轻松赚现金外快~【积分赚钱】完成简单日常任务,轻轻松松赚现金【安全免费】随时随地免费连接,畅享安全免费WiFi,节省流量快人一步!【权威认证】通过
用AI一键生成美女写真,轻松打造你的虚拟女友!
Artbreeder:这个平台利用生成对抗网络(GAN)技术,用户可以通过调节不同的参数(如性别、面部特征)来调制自己想要的照片效果。Artbreeder的优点在于自由度极高,可以生成各种风格的图像,包括超现实主义和动漫风格。但有个缺点是对于新
内衣达人直播权限开通详情步骤,内衣类目怎么可以开直播?电商平台小店开通教程 内衣类目 - 副本
2022年05月17日何***100企业一站式服务,电商平台店铺开通|定向邀约报白|天猫入驻|京东入驻|抖音入驻/快手入驻/小红书入驻/拼多多入驻各电商平台店铺开通 医疗器械 药品 保健品滋补品 食品饮料 酒水 服饰鞋包 珠宝文玩 数码家电 本地生活服
第9章 大模型的伦理安全与隐私9.3 隐私保护技术9.3.1 数据匿名化与脱敏
作者:禅与计算机程序设计艺术 9.3.1 数据匿名化与脱敏 9.3.1.1 背景介绍 在大数据时代,越来越多的个人信息被收集、处理和分析,导致个人隐私风险的显著增加。因此,保护个人隐私成为一个重要的课题,而数
神马优化seo_神马优化关键词快速排名(优化神马搜索引擎关键词排名工具)
1 移动端优化紧张性随着移动互联网的快速发展,手机搜刮用户数量巨大,企业需器重手机网站,否则大概错失大量客户百度神马和搜狗是重要搜刮引擎,各具官方优化指南2 优化指南要点百度移动优化指南夸大简便域名服务器稳固HTML5顺应性呆板可
相关文章
推荐文章
发表评论
0评