评论

AI辅助药物研发进展

摘要

药物开发成本持续攀升,人们亟需有效降低风险、时间、成本和资源投入的新药物研究方法。后基因组时代大量丰富可获取的生物数据,极大促进了人工智能方法应用于药物研发领域,如药物靶标发现与确认、虚拟筛选、从头药物设计、ADMET性质预测等。本文旨在捕捉药物研发流程中一些重要的人工智能药物研发相关技术模型和学习范式,阐述其优势和局限性,并对未来药物发现进行展望。最后,在人工智能模型的可解释性、数据要求、可重复性、建模挑战等方面提出了具体意见,期望能为人工智能从药物靶标发现到临床前研究整个药物研发流程赋能,缩短药物的研发周期,提高新药发现效率。

_

正文

_

药物从发现到上市是一项复杂的系统工程,涉及生物学、临床医学、药物化学、药理学、药代动力学、毒理学等多学科。据统计,每一种上市新药在研发阶段需要合成和筛选近1万个化合物,大约有1/1000的化合物可以进入临床试验,最终只有一个化合物能够成功上市,从临床试验到上市,成功率只有不到10%[1]。创新小分子药物研究投入大、风险高,尽管制药行业投入逐年创纪录,但药物研发产出率仍处于下降趋势,药物研发从开始到商业化平均需要10~15年,平均成本高达(20~30)亿美元(图1)[2,3]。市场饱和、市场支付意愿、药物监管法规的增加、临床超预期毒性和不良反应、交叉反应和较长的研发周期等都是使小分子药物设计的步伐逐渐放缓的原因。如今,人工智能(artificial intelligence,AI)技术的兴起有助于加速和改善药物研发进程,在这一背景下,推动更大规模的候选药物筛选,逐渐成为药物开发中最重要的获益因素。

在生物信息学产生的开放获取生物数据呈指数级增长的后基因组时代,药物研发领域已经发生了革命性变化,通过使用各种生物数据集,科学家能够进一步了解与疾病相关的生物系统,使用计算方法来改进或设计具有所需生物活性特征的类药物分子,并预测和验证药物靶点,从而为有效地探索药物组合空间带来理性的、系统的方法。

图2 AI 视角下药物发现与开发流程

1

药物发现的一个主要方法是设计能够调节靶标活性的化合物,使其在可接受的安全范围内调节靶标以产生治疗收益。如今,开发药物的疾病机制研究从单基因或蛋白质分析发展到以基因组学、代谢组学和蛋白质组学等各种组学数据为支撑的多尺度分析,从而增进对复杂疾病潜在机制的了解,进而阐明参与疾病发生的遗传变异或生物学标志物、通路或蛋白质。

为了从海量数据中预测疾病靶标,研究人员除了使用多种基于机器学习的分类器,如随机森林、支持向量机和决策树之外,还利用各种深度学习方法探索多组学数据关联,有研究者使用深度神经网络(deep neural network,DNN)结合自编码器和支持向量机,预测与帕金森病相关的基因[6,7]。还有研究者在选择性剪接领域开发出可以预测剪接模式的深度学习模型,在靶标优先级确认领域训练模型以对不同靶标优先排序,在蛋白质结构预测领域构建深度残差网络模型和深度上下文学习模型对蛋白质结构进行确定[8,9]。

尽管基于机器学习方法在多个任务上表现优秀,例如随机森林和支持向量机,但这类方法在大规模数据中的表现一般,原因在于其多分类的模型架构不足以学习数据中的复杂关联。在基于Transformer、前馈神经网络等的神经网络预测模型中,模型训练策略成为限制模型性能的重要因素之一,如多任务学习在训练时倾向将协作协同网络配对到已验证的因果网络中,从而预测多个目标。

2

先导化合物的筛选与优化

3

基于结构的虚拟筛选

基于结构的虚拟筛选的目标是在靶标大分子的三维结构模型的基础上为潜在的配体(ligand)搜索和排序可结合的空间区域,分子对接被广泛应用于SBVS中,首先将一个分子虚拟停靠在靶标的结合位点,然后使用评分函数预测靶标与配体之间的能量相互作用来估计结合亲和力从而评估结合姿态。经典评分函数通常分为基于物理、基于经验和基于知识3类,但这些评分函数通常固定在单一的功能框架下,本质是将预测的特征进行线性结合,而基于人工智能的评分函数从输入数据中不断学习函数,隐式捕捉分子间复杂的相互作用,以一种无偏的方式改进评分函数,并通过人工智能模型架构的选择、数据的数量和质量以及表征能力,从而使评分函数具有更高的灵活性和准确率,如基于支持向量机的ID-Score、基于随机森林的RF-Score和基于人工神经网络的ANN-Score,有研究者提出将机器学习和同源性估计结合起来进行配体亲和力预测,但模型自身架构缺陷会损失一定的信息,如人工神经网络ANN倾向于将所有推理都作为数值进行计算,必然会损失有效信息,而随机森林通过使用大量决策树来实现预测,在面对大量数据时,实时预测几乎不可能实现; 支持向量机在面对SBVS等非线性问题时通常缺乏一个有效的核函数,导致其预测效果不佳。

4

基于配体的虚拟筛选

5

AI辅助的从头药物设计过程

AI辅助的从头药物设计通常基于生成式深度学习模型,基于无规则方法,无需分子结构规则即可直接生成具有所需性质的分子。通过借鉴自然语言处理领域的做法,这些生成模型例如基于循环神经网络(recurrent neural network,RNN)的迁移学习和强化学习模型,可以根据所需的分子特性主动学习简化分子线性输入规范(simplified molecular input line entry system,SMILES)字符串中的信息,在分子SMILES表征上训练的RNN,既可以学习生成有效SMILES所需的语法,也可以生成与模板化合物性质相似但架构不同的候选分子[12]。在这类生成式模型中,因为远程依赖问题经常生成无效SMILES,如出现未闭合环,而使用双向长短时记忆网络(bi-directional long-short term memory,Bi-LSTM)和全局注意力机制可以显著提升序列生成任务的性能。另外,运用三维形状、药物相似性、分子描述符值和基因表达特征等额外信息的模型也被广泛应用,但利用多维度信息的AI模型训练所需的目标函数的设定逐渐成为一个难题[13~15]。从头设计生成式方法通常比预测方法更难以评估,对此,一些研究者提出了模型的可比较指标,如生成分子的有效性和新颖性,与已知化合物的相似性,以及分子骨架和片段的多样性[16]。

以上方法较多借鉴了自然语言处理领域的做法,也相应地继承了一些弊端,如特征表示中如何选择最合适的方式生成嵌入(embedding),成为影响预测准确性的重要因素; 另外,在Bi-LSTM、Transformer等模型上增加分子预训练模型逐渐流行,微调(fine-tune)预训练模型使其适应下游各类型预测任务成为有效提升准确性的方法; 最后,上述基于SMILES字符串的方法通常会引入与分子结构无关的信息,如SMILES语法和原子顺序信息,导致模型训练负担较重,并且效果也有待提升,如何更有效编码分子而不仅仅局限于SMILES逐渐成为一个重要问题。

6

先导化合物的成药性优化

1.理化性质

(1)亲脂性: 药物的溶解度、脂水分配系数、相对分子质量等物理化学性质通过影响药代动力学性质、毒性、效力和药物化合物的选择性,对药物的成药性具有重要影响。作为药物发现中最重要的理化性质之一,亲脂性在调节许多关键的药代动力学过程中起着重要的作用。油水分配系数油水P和分布系数D是定量表征亲脂性的指标,研究人员在传统亲脂性预测方法如基团贡献法、状态方程、量子化学驱动法的基础上,越来越多地采用AI驱动的方法将P或D与分子描述符集合相关联,如使用电荷、分子体积与表面积等,例如将前馈神经网络和KNN(k-nearest neighbor)方法结合起来预测P。现有模型受所使用分子的相对分子质量较小以及选择的描述符属性之间存在相关性的影响,有必要将更具物理意义的或通过分子模拟获得的属性纳入到分子描述符中来改进预测,例如Riniker等[17]就在AI模型中引入了分子动力特征(molecular dynamics fingerprints,MDFP)来预测P。这种基于AI来研究亲脂性的范式,通过实验数据训练模型,可能会限制模型的适用性,在一些没有严格定义适用领域的研究中,模型推广到其他数据集的性能会受到一定限制。

(2)水溶性: 水溶性对于药物在人体胃肠道的吸收至关重要,其定量表征指标溶解度S的预测通常基于以下信息: 理化性质、原子或基团贡献、量子化学性质和分子结构。AI辅助的水溶性预测方法通过学习分子结构特征来预测类药物分子的水溶性,如Coley等[18]提出基于图的卷积神经网络学习,在分子图上进行卷积以构建一种特定的摩根分子指纹,在预测任务中取得了显著的领先。尽管人们设计了许多分子描述符,但没有一种能完美地预测水溶性,并且人们发现实验数据质量并非是实验结果的限制因素,每一种方法都有自己的优点和局限性,因此对于水溶性预测的最佳选择更多地转移到了自身需求上。

(3)渗透性: 膜渗透性对于分子被动跨膜扩散或主动转运跨生物膜具有重要意义,为了准确地预测小分子的膜渗透行为,AI辅助预测模型通过收集基于细胞实验的数据进行训练,如AutoQSAR系统将Caco-2细胞的渗透性和分子结构联系起来预测模型,研究将MDCK细胞作为指标建立偏最小二乘和支持向量机模型对渗透性做出预测[19,20]。

2. 药代动力学与毒性:

失衡的药物吸收、分配、代谢、排泄和毒性(absorption,distribution,metabolism,excretion,toxicity,ADMET)特性是候选药物后期无法顺利推进的常见原因,甚至会导致已批准药物的撤市。AI辅助的ADMET建模旨在设计和选择具有优秀ADMET特性的新化合物,将有限的实验资源导向拥有最佳成药性的化合物,从而减少需要合成和分析化合物的总数。

Shin等[21]提出了一个免于构建复杂特征工程的DNN模型,用来预测多种结构的化合物在Caco-2细胞上的渗透性。Sun等[22]使用6种机器学习方法和26个物理化学和结构描述符构建预测模型,预测的平均绝对误差(mean absolute error,MAE)区间为0.126~0.178,具有优异的性能。在代谢位点预测上,有研究基于深度学习网络对反应性代谢物的形成进行建模,估计各种化学物质的代谢情况[23]。也有研究者应用偏最小二乘法和随机森林方法来预测药物静态分布容积情况[24]。药物毒性预测通常分为基于相似性和基于特征的方法。基于相似性的方法认为相似的结构应该产生相似的生物效应,如使用最近邻算法和支持向量机计算化合物之间的配对相似性,进而预测毒性。而基于特征的方法选择与任务最相关的特征,分别选择需要的特征或对输入进行加权来预测毒性。

7

展望

本文重点回顾了药物研究阶段人工智能辅助的小分子药物发现的应用与技术,AI方法的赋能使得药物开发过程更加数据驱动、高效和具有成本效益,已广泛应用于药物靶标发现、虚拟筛选、先导化合物优化以及ADMET性质研究,弥补了传统方法的缺陷,然而新挑战也广泛存在。

数据是开发和评估模型的核心,为了使生成的模型更强大,数据必须高质量且有足够的规模,虽然现有的化学库有大量分子,但特定场景下可分析的数据量可能非常少,即便标杆性基准数据集的质量也会受到质疑[25]。基准数据集是否能有效代表现实世界药物发现逻辑仍有待于进一步观察[26]。例如,PDB数据库中仍有许多新的折叠、拓扑或架构仍未被发现,并且数据库中仍存在大量序列和蛋白质家族的冗余,另外,药物相关蛋白靶家族的结构覆盖率,例如G蛋白偶联受体(G protein-coupled receptor,GPCR)和离子通道在PDB等数据库中未得到充分代表,而且药物发现相关数据集可能存在高度不平衡的情况[27]。因此在评估模型时需要获取合适的数据集,合适的数据平衡方法以及合适的衡量指标。

AI辅助药物研发的另一个挑战是预测多结构域蛋白、多聚体蛋白复合物和膜蛋白的结构。此外,由于建模中的过度假设阻碍了人们开发准确的模型来回答生物学假设的能力,结果会偏离真实的期望,导致模型无法揭示脱靶作用。

实验的可重复性和可解释性挑战。对AI试验进行可重复性验证的核心在于保证数据的适用性和可靠,以及建立统一标准或研究程序,例如对实验数据进行明确说明或进行外部验证可以增强结果的可重复性。尽管在某些领域,例如分子生成领域,人们已经提出了一些准则来评估人工智能发现分子的新颖性,但基准数据集、数据分割、超参数调整、训练和评估等过程差异普遍存在。而对AI模型的可重复性思考会助推研究人员制定标准化程序,从而确保结果的可重复性和科学知识的连续性。另外,尽管人工智能方法性能卓越,但其过程仍难以被人理解,有必要开发具有高度可解释性的方法,使得模型预测过程透明,并且可量化预测的可靠性。

参考文献

详见 《医学研究杂志》 2023年10月 第52卷第10期

生物制品微信群!

请注明:姓名+研究方向!

本公众号所有转载文章系出于传递更多信息之目的,且明确注明来源和作者,不希望被转载的媒体或个人可与我们联系(cbplib@163.com),我们将立即进行删除处理。所有文章仅代表作者观点,不代表本站立场。返回搜狐,查看更多

责任编辑:

平台声明:该文观点仅代表作者本人,搜狐号系信息发布平台,搜狐仅提供信息存储空间服务。
阅读 ()