这才是AI近年来最有价值的成就
2025-11-30 10:25:22 · chineseheadlinenews.com · 来源: 果壳公众号
有一个英文单词,它由 189,819 个字母组成。在常规语速下,要念完它需要花足足三个半小时——它是我们体内的肌联蛋白(titin)的化学全名。
肌联蛋白是人体内最大的蛋白质,由超过 3.4 万个氨基酸组成。相比于只含几百上千个氨基酸的常见蛋白质,肌联蛋白实在是太大了。于是,科学家决定化用古希腊神话中巨人神族的名字“泰坦”(Titan),将它命名为 titin。
然而,自科学家 1954 年发现肌联蛋白已经过去 70 多年,我们依然不知道这位“巨人”的真实模样。要用传统的实验方法解析出这个庞然大物的完整结构,几乎是不可能的。

过去,想要知道某个蛋白质的全貌(三维结构),科学家只能依赖于核磁共振、X 射线晶体学或冷冻电镜等手段。哪怕是一个只含几百个氨基酸的蛋白质,科学家也得反复表达纯化样本、测试条件,实验室设备动辄上百万美元,时间成本少则数月,多则几年,就更别提肌联蛋白这种拥有三百多个结构域的超级蛋白质了。如今,科学家才解析出肌联蛋白极少部分的结构,距离拼出全貌还相当遥远。
直到五年前,一款专门用于预测蛋白质结构的 AI 工具问世——在我们只是用 AI 洗稿、编论文、画色图之前。
太好了,是 AlphaFold
蛋白质结构几乎决定了蛋白质的一切性质:蛋白质和谁互动,是否会引发疾病,以及哪里可以作为药物作用的靶点。对科学家而言,蛋白质结构就像一张地图,没有这张地图地科学家便只能摸黑走路,靠不断尝试来找到通往目的地的路径。

可现实是,在浩瀚的蛋白质世界里,人类真正通过实验看清、画出地图的区域,只有极小的一部分。几十年来,全世界科学家解析出的蛋白质结构还不到 20 万个。而在所有人体蛋白质中,也只有约 35%的结构被实验解析,且很多都残缺不全。
蛋白质的结构由其氨基酸序列决定,我们能否直接通过氨基酸序列,预测出蛋白质的三维结构?这曾是生物学领域最艰难、最核心的挑战之一。
但是,2020 年 11 月 30 日,AlphaFold2 出现了。
DeepMind 将蛋白质数据库(PDB)中实验得到的蛋白质结构“喂”给了神经网络,让 AI 学习序列与结构之间的关系。最终,他们做到了科学家过去无法想象的事:在那年的“全球蛋白质结构预测比赛”(CASP)中,AlphaFold2 凭借氨基酸序列预测蛋白质结构的准确率超过了 90%,直逼实验方法。
现在,AlphaFold 数据库中的蛋白质预测结构已超过 2 亿个,其中也包括人类蛋白质组 98.5%的结构。来自 190 多个国家的上百万科研人员正利用这一开源“蛋白质 GPS”,在前所未有的高效下破解蛋白质本身的奥妙——随之而来的真实改变,其实已经陆续在我们日常生活中发生。

关键时候它真救命啊
早在 AlphaFold2 正式发布之前,它就在人类的危机关头展示了威力。
2020 年 3 月,新冠疫情刚爆发不久,DeepMind 就利用仍在开发中的 AlphaFold2,预测出了新冠病毒部分蛋白质的结构。在那样的关键时刻,等待数月甚至数年时间解析结构并不现实。尽管 AlphaFold2 给出的预测并非最终答案,但它让研究者能迅速了解一种新型病毒的生理机制,甚至筛选出可能的治疗药物。

它还正在辅助科学家研发疫苗,阻止下一次疫情发生。例如,英国牛津大学的研究团队用 AlphaFold2 找到了一种疟原虫蛋白质的关键结合位点。如果将这些位点制成疫苗,让人体产生相应的抗体,那么蚊子叮咬接种过疫苗的人后,这些抗体进入蚊子体内,就会阻止疟原虫在蚊子肠道内发育,从源头切断疟疾传播。
遗传病能不能不遗传?
正因为蛋白质结构无比重要,因此当基因的错义突变改变蛋白质氨基酸序列后,就可能影响蛋白质结构,进而可能引发疾病。如今,马耳他大学的科学家正在使用 AlphaFold 来研究基因突变对骨质疏松的影响。他们会生成正常蛋白质和突变蛋白质的结构模型,对比观察这些突变是否可能破坏蛋白质的功能。

然而,这只是沧海一粟。在人类基因组中,存在多达 7100 万种可能的错义突变,而其中 99.9%的变体都属于意义不明,我们不知道它们是否会导致疾病。

于是 2023 年,DeepMind 又在 AlphaFold 的基础上推出了新模型 AlphaMissense。它并不直接预测结构,而是利用 AlphaFold 对结构的“直觉”,来判断某个错义突变是否可能致病。通过这种方法,研究团队成功归类了人类所有错义突变中的 89%,生成了一份“人类错义突变目录”。有了这份目录,科学家就能更有针对性地锁定罕见遗传病甚至糖尿病等复杂疾病背后的遗传因素。
塑料污染问题,也许还有救
AlphaFold2 的作用远不止预测结构,它还能帮助科学家重新设计蛋白质,去完成过去很难做到的事,例如高效地降解一次性塑料。

在英国朴次茅斯大学,科学家正在从微生物中寻找具有降解潜力的酶。有了 AlphaFold,他们短短几天内就能得到上百种候选酶的三维结构。于是他们就能基于这些结构,设计反应更快、稳定性更高、成本更低的酶,从而更有效地分解塑料垃圾。
首款 AI 制药
你在用 AI 画色图,而人家在用 AI 制药。
例如,生物技术公司 Insilico Medicine 就将 AlphaFold2 整合进了他们的端到端 AI 药物发现平台 Pharma.AI。他们用生物计算引擎 PandaOmics 寻找疾病的关键蛋白质靶点,再用 AlphaFold 预测其结构,最后让 AI 药物设计引擎 Chemistry42 基于该结构来设计药物。
使用这种 AI 全流程的方法,他们短短几年内就找到了一种有望治疗特发性肺纤维化的候选药物——Rentosertib。Rentosertib 不仅是全球首个完全由 AI 发现生物靶点并设计苗头化合物的试验药物,而且目前已经进入 II 期临床试验阶段,真正走上了药物开发的主舞台。
AI 时代更真实的意义
回到这个故事的起点,肌联蛋白。
尽管就连 AlphaFold2 也无法一次性给出肌联蛋白的完整结构,但它将肌联蛋白的序列切分成了 166 个“重叠群”(contig),每个都长达上千个氨基酸,并分别给出了相应的结构预测。
如今,科学家已经将这些结构整合起来,得到了肌联蛋白中所有相互串联的双结构域的三维蓝图。与此同时,他们还借助 AlphaMissense 和其他工具,评估了这一人体最大蛋白质不同突变的潜在致病性,让一个此前几乎无法触及的研究对象突然变得有迹可循。
在 AlphaFold2 诞生后的这五年里,生命科学本身并未停下脚步。2024 年,科学家又发现了一种比肌联蛋白还要大 25% 的蛋白质——PKZILLA-1,刷新了自然界已知最大蛋白质的纪录。
同年,谷歌也发布了 AlphaFold3 和 AlphaProteo,前者能精准预测蛋白质与 DNA、RNA 等其他生命分子的相互作用,后者则能主动设计出能与疾病靶点结合的定制蛋白质。2025 年,谷歌又推出了 AlphaGenome,进一步把预测能力延伸到了 DNA 层面,从 DNA 序列预测基因突变对生物学过程的影响。

在蛋白质结构预测领域,AlphaFold 也并非独行者。RoseTTAFold、ESMFold 和 I?TASSER 等 AI 模型,也正在各自的道路上不断突破,尝试从不同角度解决困扰了生物学界几十年的蛋白质折叠问题。
在你偶尔会抱怨甚至厌烦满眼 AI,甚至怀疑其泡沫属性的时候,想想这些在最重要的科研领域真实发生的改变,就会更乐于迎接这个新时代的到来。