AI预测蛋白质结构为生命科学领域带来巨变

过去半个多世纪,人类一共解析了5万多个人源蛋白质的结构,人类蛋白质组里大约17%的氨基酸已有结构信息,而AlphaFold2(阿尔法折叠的迭代版)预测的结构将这一数字从17%提高到58%。它带来的在生命科学各分支领域的革命,将在今后几年到十几年中逐渐显现出来。

蛋白质结构预测是生物学的重要“圣杯”,也是人工智能落子生命科学领域最炙手可热的研究之一。

近日,我国自主研发深度学习蛋白质折叠预测平台传来好消息,其基于2020年第十四届国际蛋白质结构预测竞赛(CASP14)蛋白质测试集的成绩仅次于AlphaFold2,排名全球第二,这是国内目前所有公开蛋白质结构预测模型中的最好成绩,我国计算生物学领域的表现跻身全球第一梯队。

从2018年AlphaFold第一次代表人工智能“参战”,到AlphaFold2用机器学习方法取得媲美结构生物学实验的精测精度,计算生物学给蛋白质预测这一世纪难题带来了颠覆性的解法。人工智能会给生命科学领域带来怎样的巨变?蛋白质结构预测这个生物学里悬而未决的终极难题之一,会被人工智能彻底解决吗?

深度学习可在计算生物学领域广泛应用

蛋白质结构预测是生命科学领域一个由来已久、令人着迷的问题,同时又以难度大、成本高、进展有限著称。但这个人们本以为需要一个世纪慢慢探索的问题近年来却取得了重大突破:2020年CASP14竞赛中,谷歌公司旗下的DeepMind公司研发的AlphaFold2取得了总分(GDT)92.4分的成绩,也就是说,计算生物学几乎获得了与实验室方法精确度相当的蛋白质结构预测结果。

这个里程碑事件令结构生物学家们感慨,自己用价值1000万美元的电镜努力了好几年得出的结果,Alphafold2竟然一下就算出来了。“依我之见,这是人工智能对科学领域最大的一次贡献,也是人类在21世纪取得的最重要的科学突破之一。”生物物理学家、西湖大学校长施一公不吝赞美。

为什么要预测蛋白质结构?

天壤蛋白质折叠项目负责人苗洪江对科技日报记者解释,“研究蛋白质结构,有助于了解蛋白质的作用,理解蛋白质如何行使其生物功能,认识蛋白质与非蛋白质之间的相互作用,对于生物学、医学和药学等都非常重要。”

传统观测蛋白质结构的方法主要有3种,即核磁共振、X射线、冷冻电镜,但这些方法往往依赖大量试错和昂贵的设备,每种结构的研究都要花费数年时间。而人工智能应用于蛋白质结构预测的最新成果,即AlphaFold2,能在几天甚至几分钟预测出以前要花费数十年才能得到的具有高置信度的蛋白质结构。

“刚开始大家还在开玩笑,说Deepmind是不是通过什么方法盗取了真实实验结果,直到大家看到文章和开源代码才敢相信这件事情真的发生了。”苗洪江笑言,这侧面证明AlphaFold2预测结果之震撼,“这开启了人工智能在计算生物学广泛应用的大门,让整个领域看到了深度学习的广泛应用,这实打实的双盲实验结果就是证明。”

AI预测结果和实验室水平相当

1994年,美国科学家约翰·莫尔特(John Moult)发起国际蛋白质结构预测竞赛,每两年举办一届,竞赛的举办正是为了吸引计算机科学、生物物理学等不同领域的专家参与到蛋白质三维结构预测这一极具挑战性的生物信息学问题中来。2018年,人工智能正式参与蛋白质三维结构的预测,AlphaFold首次大显身手,在98名参赛队伍中排名第一。两年后,AlphaFold2带来真正的突破,它用机器学习方法对几乎所有的蛋白质都预测出了正确的结构,其中有大约2/3的蛋白质预测精度达到了结构生物学实验的测量精度。

事实上,过去半个多世纪,人类一共解析了5万多个人源蛋白质的结构,人类蛋白质组里大约17%的氨基酸已有结构信息,而AlphaFold2预测的结构将这一数字从17%提高到58%,因为无固定结构的氨基酸比例很大,58%的结构预测已经接近极限了。它带来的在生命科学各分支领域的革命,将在今后几年到十几年中逐渐显现出来。

施一公在接受媒体采访时曾谈到,人类蛋白质组里能够被预测的以单个蛋白为单位的空间三维结构,已经基本都被AlphaFold2预测了。总体而言,预测结果可信、也比较准确。对结构生物学来说,这是一个颠覆性突破。此前人类尚未被解析的一些结构,现在基本上都已经被预测。

对生物化学、细胞生物学、遗传学、神经生物学、微生物学、病理药理等一大批生命学科和研究领域来说,这会大大改进人们对于生命过程的理解。比如,遗传学家也许积累了大量数据,但如果不知道蛋白质结构,就没法研究某个突变对于蛋白功能的影响。现在不同了,通过AlphaFold2的结构预测就能查看人类遗传病中的每一个突变在相关蛋白结构里的具体位置,进而有可能推测出蛋白功能如何受到影响。

再比如,DeepMind预测出来的蛋白结构,包括了众多G蛋白偶联受体和关键酶在内的一大批结构未知的药物靶点蛋白,而且预测的结构足够准确。这对于制药界来说太重要了,等于提供了可靠的药物设计和药物优化的重要基础。

单个蛋白质结构预测只是起点

今年7月,DeepMind公开了AlphaFold2的源代码,并在《自然》上发表论文阐述了AlphaFold2的技术细节。

“这次开源在生物学界掀起了巨大的波澜,意味着生物学家终于摆脱了先进设备的掣肘——此前这些昂贵的先进设备只有经费充足的大学或研究机构才有条件配置,而此后,小型团队或者个人研究者也有了参与蛋白质研究的可能。”天壤创始人、上海交通大学计算机系原副教授薛贵荣说。

苗洪江认为,目前的单个蛋白质结构预测只是一个起点,更加精准的侧链优化、蛋白质的动态分析、蛋白质与其配体(如小分子、DNA、RNA、多肽、蛋白质等)的相互作用等一系列的问题还没有解决,接下来的工作重点将是利用目前的全蛋白质组协同进化分析,建立起蛋白质与蛋白质之间相互作用的精准链路。

有了算法模型只是开始,向前走依然困难很多,薛贵荣坦言:“算力是很大的制约因素,比如AlphaFold2做了大量的数据蒸馏工作,他们的算法模型是基于30%的真实数据和70%的蒸馏数据一起训练的,背后是巨大的算力支持。”

充足的算力可以让蛋白质结构预测从单一结构向相互作用、从两两研究向规模化、从微观结构向宏观系统前进,“生物界有很多蛋白结构,比如基因测序大概已经测了几十亿条序列。但我们只知道序列,不知道结构,这就是很大的信息缺失问题。”薛贵荣说,“蛋白质通常以复合物的形式成对或成组地承担生命所需的种种功能。然而许多蛋白质复合物的结构仍然是个谜,蛋白质之间的相互作用也尚未被识别。我们需要有充足的算力去支撑整个体系,进行蛋白质结构预测、蛋白质设计,研究蛋白质相互作用,药物研发等漫长而富有挑战的工作,寻找精准的疾病治疗新方法。”

同时,在数据来源和应用方面,也需要药厂、医院等进行协同和联动。“未来更多的医药企业、机构,以及人工智能公司,要一起把这个行业做大,现在只是个开始。”薛贵荣说。(记者崔爽)