Computer and AI Aided Drug Design

Computer-Aided Drug Design (CADD),即计算机辅助药物设计,是当下药物设计的一个重要技术手段。 同时随着 AI 技术的发展,人工智能辅助药物设计(AIDD),作为 AI4Science 的重要一环,也在制药领域发挥着越来越重要的作用。

本文的主要内容来源于几份 AIDD/CADD 相关的白皮书,一些大模型的知识,以及一些知乎上的回答。本文对以下方面进行了整理:

  • 制药行业的基本流程。
  • CADD/AIDD 的基本信息以及发展时间线。
  • AIDD 的应用场景。
  • AIDD 的发展现状以及挑战。
  • 本文未深入讨论 AIDD 应用场景中的具体问题。
  • 调研过程中收集了一些 AIDD 的综述性文献,将在之后整理技术发展时再进行学习,不在本文中探讨。

现代药物设计概览

药物发现是一个昂贵且耗时的过程,平均获批的药物需要 10 到 15 年的时间来开发,估计成本为 8-20 亿美元。 现代药物发现与设计的整体流程如下图所示。

药物研发基本流程
药物研发基本流程示意图。CRO 指受托研究机构(Contract research organization)[1]

流程上:药物研发的输入是一个疾病(已有知识的某种表征),通过一系列的尝试/搜索/试错(实验/模拟),输出一个有着一定功效的药物(小分子/大分子结构),再对其进行药理、毒理评估,以及一系列临床试验,最终走向上市。

关键步骤

本节我们对药物研发中的关键步骤进行一些了解,主要限于临床研究之前的研究。 其余步骤(临床试验、审批等)的难点并非局限于技术,所以在此不过多展开。 以下步骤按照顺序陈述,每一步骤可能依赖于实验 🧪 和计算 💻 方法。

本节主要参考亿欧智库的《2021中国AI/计算制药 产业报告:药物发现篇》。

目标蛋白研究:

  • 靶点与生物标记识别与验证:在基于结构的药物设计的早期阶段,识别和验证潜在的药物靶点蛋白,涉及基因组学、转录组学和蛋白质组学等。
  • 🧪分子生物学特性研究:开始化合物搜索过程之前,选定特定蛋白质作为药物靶点后,需要全面了解该蛋白生物学功能和在疾病发展中的角色。
  • 🧪蛋白质结构解析:确定目标蛋白的三维结构,可以通过实验工具进行,包括但不限于核磁共振、光谱、冷冻电镜和 X 射线晶体学。
  • 💻同源建模预测结构:在缺乏实验数据(冷冻电镜)的情况下,同源建模可用于预测目标蛋白的三维结构,特别是当已知与目标蛋白序列相似的模板蛋白结构时。

药物设计–搜索与筛选:

  • 💻虚拟筛选 (VS):通过计算机模拟来筛选出可能与目标蛋白结合的小分子化合物。
  • 💻药效团与先导化合物设计:确定和模拟小分子与目标蛋白之间的结合模式(最佳形状和电荷分布),从而为先导化合物的发现和优化提供依据。
  • 💻构效关系(QSAR)分析:通过分析化合物的化学特性与其生物活性(如酶抑制、细胞毒性等)之间的关联,为化合物优化提供依据,与🧪分子生物学特性研究相互补充。

药物与目标交互:

  • 💻结合位点识别与特性分析:在已知目标蛋白三维结构的基础上,识别并研究小分子可能与之结合的位点。
  • 💻分子对接与亲和力预测:运用计算模型预测药物小分子与目标蛋白之间的最优结合模式及其亲和力。
  • 💻分子动力学模拟:通过模拟分子运动来获取目标蛋白与小分子交互过程的动态信息,进一步了解药物作用机制,与🧪实验数据对比验证。

临床前研究:

  • 🧪化学、制造和控制:初始合成用于快速毒理评估,不考虑成本。随项目进展,优化合成路线和工艺,以适应I-III期临床和商业需求。💻亦用于合成路线模拟。
  • 🧪药代动力学:分析药物在体内的吸收、分布、代谢、排泄特性,以指导临床给药形式、频率和剂量。
  • 🧪安全性药理:验证化合物对特定疾病的生物活性,并评估潜在副作用,特别是在心血管、呼吸和中枢神经系统方面。💻用于预测副作用。
  • 🧪毒理研究:包括多种毒性评估,特定高耗资毒理实验(如致癌性、生殖毒性)可延至临床试验阶段。
  • 🧪制剂开发:早期焦点在简便给药,无需完整处方。随项目进展,全面优化给药方式和处方,如解决吸收差或稳定性问题。💻用于制剂优化模拟。

CADD 基本信息

CADD 简介

什么是CADD?

计算辅助药物设计(CADD)是一个多学科领域,涵盖生物学、化学、物理学和计算科学等多个方面。 CADD 使用各种计算方法(如分子力学、量子力学和人工智能)来构建模型,解释现有的生物分子现象,如小分子与药物靶点的结合情况,并利用这些模型预测新的现象,如找到活性分子或优化分子性质。 目前来看 CADD 已经是药物研发中不可分割的一部分。

为什么重要?

  • 成本效益: CADD 可大幅减少药物开发的时间和成本,估计能降低药物开发成本多达50%。
  • 全周期应用: 可用于药物开发的大多数阶段,包括目标识别、目标验证、先导发现、先导优化以及临床前研究。
  • 成功案例: 如卡托普利、多佐胺、奥司他韦、阿利吉仑和诺拉曲塞等多种已获批药物都经过了 CADD 优化。

现代制药行业及 CADD 发展历史

本节主要参考亿欧智库的《2021中国AI/计算制药 产业报告:药物发现篇》以及晶泰科技的《人工智能药物研发技术指南》。

本节的信息补全由 GPT4 展开(细节上或有一些错误,但时间上应当较为准确)。暂时没有时间逐项纠错,日后若有需要再进行优化。

📈 行业里程碑:

  • 1966:赛勒斯·利文索尔将计算机模拟与分子图像相结合,标志着计算机辅助药物设计的初步发展。为科学家提供了一个全新的工具来理解和研究生物大分子。
  • 1970年代:分子图形学出现使得科学家能以三维方式可视化分子结构。
  • 1979:Tripos 出现,成为第一家专门从事 CADD 的公司。
  • 1980年代:分子动力学模拟的发展,使研究人员能够实时观察和理解分子行为。
  • 1984:BioDesign 公司启动了第一个基于蛋白质模拟的商业项目。
  • 1987:Gaussian 成立,该公司推出了 Gaussian 软件,广泛用于量子化学计算。
  • 1990年代:虚拟高通量筛选,允许研究人员通过计算手段快速筛选大型化学文库,以寻找有潜力的候选药物分子。
  • 1990:Schrödinger 成立,该公司开发了一系列用于分子模拟和药物设计的软件工具。

📊 数据方面:

  • 1965:Cambridge Crystallographic Data Centre (CCDC) 成立,开始收集和存储晶体结构数据,对化学和生物学研究具有基础性意义。
  • 1971:Protein Data Bank (PDB) 成立,专门用于收集蛋白质和其他大生物分子的三维结构数据。
  • 2004:PubChem 数据库上线,提供大量的化学分子和物质的信息,包括其结构、性质和生物活性。
  • 2008:ChEMBL 数据库发布,收集与药物发现相关的生物活性数据。
  • 2014:SureChEMBL 数据库发布,为公开获取的化学专利提供一个可搜索的资源,助力创新和药物开发。

🔬 方法方面:

  • 1964:Hansch-Fujita & Free-Wilson,早期用于预测分子生物活性的统计方法,建立分子属性与生物活性之间的关系模型。
  • 1981:早期计算化学软件,MOPAC 主要用于量子化学计算,AMBER 主要用于生物大分子领域分子动力学模拟。
  • 1982:Dock,一个用于模拟小分子与大分子(通常是蛋白质)相互作用的软件。
  • 1983:CHARMM,用于模拟生物大分子,如蛋白质和核酸,具有广泛的应用。
  • 1989:AutoDock,用于模拟分子对接的软件,广泛用于虚拟筛选,以帮助研究人员从大型化合物库中找到可能的药物候选分子。
  • 1999:FMO,用于处理非常大的分子系统,将大分子分解为较小的片段并分别进行量子化学计算,能够更高效地处理复杂系统。

我们可以发现,主要的事件都处于数据整合、数据分析处理以及物理计算模拟的领域,这也是计算机可以发挥作用的方向。

AIDD 基本信息

AIDD 简介

什么是 AIDD?

人工智能辅助药物设计 (AI-assisted drug discovery) 是使用人工智能技术来帮助药物设计和发现新的药物的过程。

为什么重要?即有什么优势?

AI 在药物研发中的优势
AI 在药物研发中的优势

AIDD 发展历史

本节主要参考亿欧智库的《2021中国AI/计算制药 产业报告:药物发现篇》以及晶泰科技的《人工智能药物研发技术指南》。

本节的信息补全由 GPT4 展开(细节上或有一些错误,但时间上应当较为准确)。暂时没有时间逐项纠错,日后若有需要再进行优化。

  • 2014 AIDD 的重要模型生成对抗神经网络(GAN)提出。
  • 2014 由 D.E. Shaw 开发的专用于分子动力学模拟的超级计算机系统 Action 2 诞生。
  • 2016 专注蛋白质运动研究的 Relay Therapeutics 成立。
  • 2017 蛋白质结构预测的基础模型 Transformer 诞生。
  • 2017.07 《新一代人工智能发展规划》发布,基于人工智能开展研究和新药研发,推进医药监管智能。
  • 2018 蛋白质结构预测的模型 AlphaFold 诞生。
  • 2018 国内 Al 制药公司成立迎来第一批浪潮(当年 8 家公司成立)。
  • 2019 美国颁布 American Al Initiative FDA 与 NIH 旨在用于推动新药发现与审批。
  • 2020 蛋白质结构预测的模型 AlphaFold2 诞生,并于 2021 年开源,蛋白质结构预测得分超过 90 分。
  • 2020 首个Al研发药物 DSP-1181 (Exscientia) 进入临床试验阶段。
  • 2020:Schrödinger 上市。
  • 2021 全球 AI 药物发现领域投融资累计超 $100亿。
  • 2021 国内两款 Al 辅助设计的药物(未知君与冰州石)进入临床试验阶段。

至少从各大机构的研究报告中可以看到,生成式模型在这一波发展中起到了重要的作用。

AIDD 代表性应用场景

本节的内容大多摘自《2021中国AI/计算制药 产业报告:药物发现篇》以及中银证券的《AI 新药研发(AIDD)行业系列报告》中 41- 50 页,并进行简化修改。

本节的信息补全由 GPT4 展开(细节上或有一些错误,但时间上应当较为准确)。暂时没有时间逐项纠错,日后若有需要再进行优化。

AI 可参与的新药研发从药物发现到上市流程
AI 可参与的新药研发从药物发现到上市流程
AI 在药物研发中具体应用场景
AI 在药物研发中具体应用场景
AI 在药物研发中的优势
AI 在药物研发中的优势

靶点发现

  • 通过对基因等医学大数据的挖掘分析来实现,通过比较正常组织和疾病组织,分析这两个组织的RNA或/和蛋白质差异表达,结合通路分析和强大的数据整合来发现靶点信息。
  • 难点:发现新靶点需要极其专业的生物学知识,数据量较小,而人工智能更适合解决确定性场景问题。

靶点鉴定

  • 具有已知生物活性的分子,如天然药物分子,需要鉴定其作用靶点以阐明其作⽤机制,进入药物开发阶段,通过分析和学习目标分子的已知类似分子的靶点,为目标分子预测其靶点。
  • 难点:两种场景应用较困难,一是目标分⼦是全新结构,无法匹配到合适的类似物分⼦;二是⽬标分⼦的靶点为新靶点,该靶点尚未有已知的配体分⼦。

分子生成/筛选

  • 研究人员在《Chemical Neuroscience》上发表了一篇关于“化学空间” 的研究报告,该报告指出:理论上潜在药物小分子的数量达10^60,但目前研究人员合成的药物仅占潜在药物中的很小一部分。
  • AI 分子生成是计算机程序通过对海量的化合物或者药物分子进行学习, 基于已有分子结构及活性,自动学习它们的性质,总结提取化合物分子的结构等规律,并根据这些规律生成很多自然界从未存在过的化合物作为候选药物分子,有效构建拥有一定规模且高质量的分子库。
  • 分子生成一方面可以拓展化学空间,为药物研发提供更多的先导化合物,另一方面可以通过机器学习提高先导化合物的质量,减少实验。
  • 在进行生物活性实验筛选之前,利用计算机上的分子对接软件模拟目标靶点与候选药物之间的相互作用,计算两者之间的亲和力大小,大大降低实验筛选化合物数量,同时提高先导化合物发现效率。
  • 难点:人工智能缺乏变通性,可能会剔除掉一些不符合其提取的规律特征的高潜力药物分子。

活性预测

  • 活性预测是通过让机器学习某个靶标蛋白与分子的相互作用数据或者多个靶标与分子的相互数据来建立预测模型,从而预测新分子的活性;或者用无标记数据的方法提取分子特征,再针对单一靶标建模的方法来做活性预测。目的是减少实验次数,节省时间和成本。
  • 难点:由于数据来源于不同的实验室,不同实验室在实验过程中可能会存在误差,导致数据的整合缺乏标准,同时精准度不高,从而会影响到进一步的预测。

化合物合成

  • 相较于制药行业的其他环节,化合物合成环节的数据量充足,化学反应的数据量达到了四五千万之多,且这些数据质量较高。
  • 难点:
    1. 这些反应的数据库主要掌握在 Scifinder 以及 Reaxys 国外两家数据库公司手里。
    2. 化合物合成虽然是药物研发上的重要一环,但并不被认为是核心环节,所以目前对于 AI 制药公司来说,给予的重视度与资源投入较少。

AIDD 制药行业的现状及挑战

AI 辅助药物研发公司

国内的公司可以参阅中银证券的《AI 新药研发(AIDD)行业系列报告》中 57 - 59 页。

AI 制药公司在各阶段的业务情况
AI 制药公司在各阶段的业务情况

一些 AI 合作聚焦的疾病

本节的内容大多摘自亿欧智库的《2021中国AI/计算制药 产业报告:药物发现篇》,并进行简化修改。

药企在AI合作上聚焦的疾病方向
药企在AI合作上聚焦的疾病方向

行业挑战

本节的内容大多摘自亿欧智库的《2021中国AI/计算制药 产业报告:药物发现篇》,并进行简化修改。

数据问题

  • 新药数量有限:自工业革命起,人类发现的新药只有1000多种,分布在几百个靶点上,且分布不均。
  • 数据不规范:历史上的药物研发数据并非专为AI准备,行业中没有统一标准数据集。数据来自不同实验室,各有其实验习惯和数据标准,可能存在误差。
  • 数据私有化:药物研发数据为企业核心资产,不易共享。尤其是有价值的数据,如失败案例,而公开的大多为成功研发数据。
  • 数据获取困难:药物研发时间长、成本高,一个药物可能需10年研发。若AI制药公司想自行积累数据,会面临巨大时间和资金压力。

问题场景

  • 机器学习的局限性:机器学习需要高度规范化的数据,但灵活性差。
  • 药物研发的挑战:药物研发仍然充满不确定性,知识不完备,同时需要高度的创新和灵活性。

人才需求

  • 交叉学科人才短缺:AI与新药研发是多学科交叉领域,涉及药物化学、分子生物学、量子力学等多学科。由于涉及计算机学科与传统药学、生物学的融合,人才短缺,专业壁垒高。

参考文献

研究报告以及白皮书

  • 《AI 新药研发(AIDD)行业系列报告》 – 中银证券
    • 强烈推荐! 十分详细。
    • 主要是从商业角度对整个制药流程进行分析。
  • 《人工智能药物研发技术指南》-- 晶泰科技
    • 推荐! 建议在对流程有一定认识之后再阅读。
    • 包含了制药流程中许多技术上的关键问题介绍。
  • 《2021中国AI/计算制药 产业报告:药物发现篇》-- 亿欧智库
  • 《行业百科系列之医药篇——医药研发环节解密》-- 中债资信
  • 《【2021版】全球44家顶尖药企AI辅助药物研发行为白皮书》-- 速石科技 fastone

相关综述文献(不含在本文内容中)

  • Askr, H., Elgeldawi, E., Aboul Ella, H. et al. Deep learning in drug discovery: an integrative review and future challenges. Artif Intell Rev 56, 5975–6037 (2023).
  • Computational Approaches in Drug Discovery, Development and Systems Pharmacology, Book • 2023
  • Bassani, Davide, and Stefano Moro. “Past, Present, and Future Perspectives on Computer-Aided Drug Design Methodologies.” Molecules 28.9 (2023): 3906.

脚注


Computer and AI Aided Drug Design
https://blog.superui.cc/extend-learning/cadd/
作者
Superui
发布于
2023年9月4日
许可协议