刚刚进入2020年,新型冠状病毒汹涌袭来。此刻,高性能计算能做什么?
高性能计算如今已是科研工具的“标配”,当然也会被用于加速疫苗和特效药的研发。一言以蔽之,高性能计算可加速新冠病毒疫苗研发及特效药研制。
使用生物信息学找到病毒来源
对于新冠病毒,研究人员已开展和正在进行的工作有:对病毒进行基因测序,并利用测序结果,采用生物信息学的方法来比对和查找,找到病毒来源以及传播的最大概率宿主。这其中,“采用生物信息学方法比对和查找病毒来源”部分需要计算资源。
要得到正确的结果,关键是采用科学严谨的方法来做工作,高性能计算设施能够加速这一过程。
这个过程中可能需要运行BLAST程序。BLAST主要用来寻找同源序列,此外还可能要用到基因组组装、多序列比对、进化分析等相关软件。
生物信息学相关软件非常多,我们曾在北京大学高性能计算公共平台上安装过100多个。但研究人员具体用哪些,与其工作习惯有关。
目前,病毒的序列已经公开,病毒的简单序列比对消耗的资源并不多,在线数据库就能做。但是要做复杂详细的研究,必须要有高性能计算的环境来加速。想必现在已有大量科研人员如此开展工作。
另外,2019新型冠状病毒资源库已经公布。但是目前还没有完全确定病毒来源,所以序列比对的工作还要继续。
高性能计算助力获知病毒结构
一般情况下,现代制药首先要搞清楚病毒的结构,然后再研究什么样的小蛋白分子能够与病毒结合,使病毒失去活性。
病毒疫苗和特效药的研制,将因为超算的使用而加速。
获知病毒结构方面,常见有两种方法。第一种方法是,通过基因测序结果搞清楚结构。这种方法主要靠“猜”,但要使用统计的方法保证“猜”的准确性比较靠谱。一般而言,对蛋白质结构预测主要有两个途径。
该方法的一个实现途径是从头模拟,目前Google的人工智能程序AlphaFold就是猜测蛋白质结构很好的方法。训练AlphaFold使用了相当大的算力,当然最主要还是设计AlphaFold的想法。
另一个途径就是根据序列上类似的蛋白直接进行同源建模,序列相似性越高结构模拟可靠性就越高。这方面的软件很多,常用的如swiss-model、I-TASSER等。
新冠病毒的基因序列和SARS等同源病毒的序列同源性非常高。这些同源病毒都已经有高分辨率的结构,新冠病毒可以根据SARS病毒的结构进行结构预测,所以像第一个途径那样从头模拟可能用得不多。
获知病毒结构的第二种方法是,通过成像技术获知病毒结构。成像技术是搞懂生物微观基本结构的最主要方法。常用的分析蛋白结构成像技术主要分三类,核磁共振、冷冻电镜和X射线晶体学方法,且三类方法各有适用范围。
近几年,冷冻电镜破解结构成为关注热点,研究人员还因此获得过诺贝尔奖。不过,使用冷冻电镜技术,病毒的培养、提纯和制样需要一定时间,没有基因测序快,不过一旦制样完成就可以成像和重建三维结构了。
在这一过程中,高性能计算能够加速三维结构的重建,主要用到RELION软件。冠状病毒整体分子量较大,非常适合利用冷冻电镜方法对该病毒进行重建。
使用X射线获得的新冠病毒组成蛋白之一的结构也有人给出,近期上海科技大学和中国科学院上海药物研究所联合研究团队公布的“新型肺炎冠状病毒3CL水解酶高分辨率晶体结构”就是这种方法。
一般X射线晶体学方法进行结构解析要先对蛋白质进行纯化、结晶,需要一定的时间。所以在如此短的时间内就做出其中一个蛋白的结构实属不易。
超算助力筛选抗病毒小分子
获知病毒结构后,接下来就是要找到能够让病毒蛋白质分子失效的小分子。
小分子药物可竞争性地结合病毒蛋白质的功能位点,这样一来病毒蛋白质就不能和它真正的底物结合,从而抑制病毒的活性。
Autodock是一个使用比较普遍的方法,目前大约有700万个小分子的小分子库。每个小分子,要通过各个角度与蛋白质结合来观察能量释放情况,结合之后释放能量越多,结合就越稳定,那么这个小分子就越有可能研制成药物。
这其中的计算任务不是很大,但是需要的计算总量很大,任务极其多,使用高性能计算或高通量计算方法比较合适。
现在应该有很多课题组在做这一工作,中国科学院上海药物研究所和上海科技大学的联合研究发现了一批可能对新型肺炎有治疗作用的老药和中药,就是这方面的工作。
通过计算的方法找到一批可能的小分子后,接下来就是生化实验,以确定计算软件找到的小分子是否真的可用。
当前疫苗的研发应该还是研发周期的问题,考虑到安全性试验,需要较长时间。现在情况特殊,也许速度会快一些。
事实上,现在任何一种冠状病毒的疫苗,无论新的还是旧的,包括S蛋白入侵的分子结构机理都是不清楚的。
搞清楚这些过程也许需要成像技术与分子动力学(MD)共同作用。成像技术中大多用冷冻电镜,分子动力学用NAMD、gromacs等模拟软件。这些分子动力学软件运行一般也需要高性能计算平台。
不过,冷冻电镜做动力学过程非常困难,因为即使静态的成像,所用到的数据量也非常大,相应的算力要求非常高。
此外,还可以通过分子动力学的模拟,大致确定病毒的传染性。目前也有许多研究人员做相关工作。(作者系北京大学科学与工程计算中心系统室主任、高级工程师,记者赵广立采访整理。)