清华AI找药登Science-墙外头条

一天筛选十万亿次，中国AI找药又有新突破！

清华大学智能产业研究院（AIR）联合清华大学生命学院、清华大学化学系在Science上发表论文：《深度对比学习实现基因组级别药物虚拟筛选》。

团队研发了一个AI驱动的超高通量药物虚拟筛选平台DrugCLIP。

DrugCLIP能让AI从海量化学分子里，迅速筛出那些最有希望和疾病相关蛋白结合的“候选药物分子”。

24小时内，DrugCLIP能完成10万亿次蛋白–分子配对计算。

依托该平台筛选，团队打通了从AlphaFold结构预测到药物发现的关键通道，不仅为抑郁症、癌症、帕金森等疾病筛选出了潜在药物分子，还首次完成了覆盖人类基因组规模的药物虚拟筛选。

目前，相关数据已经全部对外开放。

90%的蛋白靶点难找药

过去药物筛选的难点，主要集中在三点上，一是慢，二是无从下手，三是范围太窄。

先看一个背景数字。

人体内大约有2万个编码蛋白质的基因，其中的相当一部分与癌症、抑郁症、神经退行性疾病密切相关。

但现实是，目前真正拥有成熟药物的蛋白靶点，只占其中10%，剩下的90%，还没找到药。

△化学空间大小示意图（引用：Gastreich, M. BioSolveITDrugSpace2022）

第一个原因，慢。

传统的筛选方法，比如分子对接，需要逐一计算“这个分子能不能和这个蛋白结合”，一次评估虽然只要几秒钟或几分钟，但在现实情况下，以筛选1万个蛋白质靶点、每个靶点面对10?个候选分子为例，需完成约10??次蛋白-配体打分。

即便使用当前最先进的分子对接工具，也得需要2亿CPU天。

第二个原因，无从下手。

很多疾病相关蛋白根本没有实验测出来的三维结构，传统方法无从下手。

而且在真实世界里，没用的分子还远比有用的分子多，这些好分子容易被埋没在噪声里。

第三个，范围太窄。

算力成本摆在这儿，只能围绕热门靶点筛，工作很难在全基因组的尺度上推进。

不过，DrugCLIP正是冲着这三点来的。

给蛋白和分子画像

先概括一下它的方法，就是先教会AI为目标进行画像，捕捉其结构神韵，再做极速配对。

研究者用对比学习训练了两个AI编码器。

一个给蛋白质上的结合口袋画像，另一个给化学分子画像。

“结合口袋”是指蛋白质表面能够与小分子结合的特定区域，这里的“画像”是指生成特征向量。

训练时，AI会被明确告知：能结合的一对儿，画像要尽量接近，即对应的特征向量要尽可能相似；不能结合的，画像要尽量拉远。

这样一来，AI就能逐渐学习并掌握蛋白质与分子之间的结合规律。

为了让模型从一开始就领悟这种结构神韵，团队设计了一套创新性的预训练策略。

他们从已有的蛋白质结构数据中，切割出短片段模拟成“假分子”，同时将周围区域当作“假口袋”，一次性构造出了550万组训练样本。

在这套练手数据上打好基础后，再用真实的蛋白-分子数据进行微调，保证了泛化能力和精度。

模型训练完成后，真正的筛选饼程就变得简单高效了。

DrugCLIP创新性地将传统基于物理对接的筛选流程转化为高效的向量检索问题。

研究者先把5亿个候选分子全部画像完存起来，当遇到一个新的蛋白口袋时，只需要给它生成一个向量表示，再和所有的分子算相似度、排个名，排在前面的就是最有希望的候选分子。

该模型结合对比学习、3D结构预训练与多模态编码技术，能在三维结构层面精准建模蛋白-配体间的相互作用。

训练后的高潜力分子将自然聚集于目标蛋白口袋的向量邻域，能够有效支撑快速的大规模虚拟筛选。

依托这一机制，DrugCLIP在128核CPU+8张GPU的计算节点上日处理能力达10万亿次，对比传统方法实现了百万倍提升。

首次完成了人类基因组规模的虚拟筛选

速度之外，更关键的是它真能找到有用的分子。

在标准的虚拟筛选基准测试DUD-E、LIT-PCBA中，DrugCLIP在把有效分子从大量无效分子中提前筛出来这件事上，明显优于传统分子对接工具和多种已有AI方法。

并且在LIT-PCBA数据集上筛选速度远超其他方法。

而且它对结构误差、陌生蛋白家族、从未见过的分子类型都表现得相当稳定，没有出现“一换场景就失灵”的问题。

实验室验证结果也让人眼前一亮。

以抑郁症相关蛋白为例，研究者从筛选出的78个分子里，找到8个能激活这个蛋白的“激动剂”。

其中最好的一个分子，和蛋白的结合能力达到21nM（数值越小结合越强，100nM以下就是优秀水平），在细胞系中也有显著活性。

△画中的宇宙飞船DrugCLIP作为终极导航者，以前所未有的效率识别潜在的活性化合物。

团队还与清华大学闫创业教授团队合作，在去甲肾上腺素转运体（NET）这一临床相关靶点上开展了系列生物实验验证。

NET是2024年才刚解析出结构的靶点，是抑郁症、注意缺陷多动症以及疼痛等疾病的重要靶点，目前虽然有多款抑制剂已经上市，但是在选择性等方面仍然有巨大的优化空间。

团队使用DrugCLIP模型从160万个候选分子中筛选出约100个高评分分子，同位素配体转运实验检测显示其中15%为有效抑制剂，其中12个分子结合能力优于现有抗抑郁药物安非他酮。

相关复合物结构已通过冷冻电镜解析，进一步验证了DrugCLIP筛选结果的生物学可信度。

DrugCLIP还支持对AlphaFold预测的蛋白结构和apo（无配体）状态下的蛋白口袋进行筛选。

团队和清华大学刘磊教授团队合作，针对E3泛素连接酶TRIP12（thyroid hormone receptor interactor 12）的HECT结构域进行了虚拟筛选与实验验证。

当时这是一个既没有实验结构、也没有任何已知抑制剂的蛋白，与癌症和帕金森病密切相关。

团队使用DrugCLIP模型从AlphaFold2预测的160万个候选分子中高通量筛选出约50个高评分分子。

SPR实验证实其中10个分子与TRIP12有结合能力，两个亲和力较高的分子也对TRIP12的泛素连接酶活性有一定的抑制活性。

在单靶点验证之外，DrugCLIP还完成了一次前所未有的全局筛选。

△人类基因组规模筛选项目覆盖的蛋白数目与现有数据库对比

研究团队首次完成了人类基因组规模的虚拟筛选项目，覆盖约1万个蛋白靶点、2万个结合口袋，分析超过5亿个小分子，富集出200万余个高潜力活性分子。

构建了目前已知最大规模的蛋白-配体筛选数据库，为后AlphaFold时代的创新药物发现带来了新的可能性。

换句话说，这相当于为人类近一半的蛋白质，都提前找好了潜在的“药物种子”。

△像一位艺术家构想全新的世界，DrugCLIP框架在广阔而多维的蛋白–配体相互作用空间中自由穿行。

该数据库已面向全球科研社区开放。

DrugCLIP团队介绍

DrugCLIP由清华大学智能产业研究院（AIR）博士后贾寅君、计算机系博士生高博文、生命学院博士后谭佳鑫、化学系博士后郑济青以及智能产业研究院（AIR）博士后洪鑫为共同一作。

通讯作者为智能产业研究院（AIR）兰艳艳教授，生命学院张伟副教授、闫创业副教授以及化学系刘磊教授。

该项目得到了国家科技部重点研发项目、国家基金委基金、新基石研究基金、北京智源人工智能研究院与北京结构高精尖中心的支持。

未来，DrugCLIP将与科研产业生态合作伙伴深度合作，在抗癌、传染病、罕见病等方向加速新靶点与First-in-class药物的发现。

值得一提的是，清华大学智能产业研究院（AIR）还与北京智源人工智能研究院在2021年联合成立了清华（AIR）-智源健康计算联合研究中心。

该中心致力于应用最前沿的人工智能技术赋能健康管理、精准诊疗与新药研发，以数据驱动的全新科研范式突破生命健康领域核心技术。

清华大学智能产业研究院（AIR）首席研究员兰艳艳、智源健康计算研究中心负责人叶启威任联合研究中心主任。