编者按:我们身体的三分之一是蘑菇?因为人类与真菌共享三分之一的 DNA。我们一直在与异类共生?因为人体内有一半外来细胞。
这些看似不相关的现象其实都有着深层次的联系,随着科学家们的研究探索,生命神奇的本质正在逐渐被揭开。而近年来大数据、AI 等技术的发展和应用,更是为生命科学研究开启了新范式。利用新技术,科学家们可以模拟瞬间变化的生命现象、发现生命机理的规律、降低研究成本、获得更好的研究结果。近日,微软亚洲研究院就与清华大学合作,利用分子动力学模拟技术,取得了新冠病毒机理研究的重要成果。
不同领域的科学家协同合作的秘籍是什么?如何在 AI for Science 的趋势中拔得头筹?让我们从微软亚洲研究院与清华大学的合作分享中一探究竟吧。
新冠疫情自爆发以来,已造成全球范围内近2.8亿人感染,540多万人死亡,给全球的经济和社会生活带来了巨大的损失和伤害,且至今仍未有缓和的迹象。相比之下,2003年的 SARS 疫情持续一年多,累计报告病例8000多例,死亡900多人;2012年的中东呼吸综合征则主要在中东地区流行。同样是冠状病毒所引起的传染病,为什么新冠病毒有如此高的传染性?它又是如何侵染人体的?
面对这场病毒遭遇战,全球的科学家们迅速行动对新冠病毒展开研究,同时也推动了人工智能等新技术与生命科学之间的进一步加速融合。近两年来,微软亚洲研究院的研究员们也一直在思考,如何利用自身在人工智能、深度学习等计算机领域的优势,与生物学、病毒学专家深度合作,结合生命科学的专业知识,为缓解新冠疫情贡献自己的力量。就在不久前,微软亚洲研究院与清华大学生命科学学院以及传染病研究中心合作,在新冠病毒的跨领域、跨学科研究中取得了两项重要成果,为厘清新冠病毒机理提供了新的方向。
新冠病毒致病机理研究两开花,计算生物学潜力凸显
研究发现 COVID-19 新型冠状病毒是由 SARS-CoV-2 病毒所引起的。和其它冠状病毒一样,它的表面由刺突糖蛋白结构组成,也就是 S(Spike)蛋白。若病毒要想进入人体细胞,S 蛋白就需要与人体细胞的受体结合。S 蛋白的构型很像英文字母“Y”,竖着的 S2 区域起支持作用,向上伸出的两枝杈,一个是 RBD,另一个是 NTD。科学家们已经认识到直接造成侵染的是 RBD 区域,而且它的状态是站立(up)还是躺平(down)会直接影响受体结合,只有站立时 RBD 才能进行受体结合,从而感染人体。
基于这些背景知识,微软亚洲研究院的研究员们产生了一连串的疑问:RBD 的功能已经清楚了,那 NTD 在感染过程中扮演着怎样的角色?在病毒侵染的过程中 NTD 对 RBD 的状态变化是否有协同作用?如果找到了 RBD 站立与躺平的规律,是不是就有可能抑制病毒的入侵?因此,研究员们希望利用计算生物学,特别是分子动力学模拟技术对 NTD 展开深入研究。当他们把这一想法与清华大学生命科学学院龚海鹏教授讨论后,双方立即开启了合作研究。
经过分析研究员们发现,以往很多研究只对 RBD 或 NTD 的一小部分进行了模拟,只见树木,不见森林,无法还原其在整个 S 蛋白上的变化情况,模拟精度也有所欠缺。虽然只是对一个蛋白质进行模拟,但其中包含了百万级的原子数,计算量和复杂度可想而知。对此,微软亚洲研究院的研究员们采用了增强采样、加速算法等手段,基于强大的计算平台,建立了大体系、全原子的分子动力学模拟模型,实现了长时间的计算。
- 大体系、全原子是指构建拥有百万级原子的完整 S 蛋白,而不是只对10万个或1万个点进行抽象模拟,从而提升模拟精度。
- 长时间是指研究员们通过数十亿步的计算,每步代表1飞秒(1秒的一千万亿分之一),模拟运行了20微秒。不能小看这个数字,20微妙相当于2*1011步,在分子动力学模拟中这属于相当长的时间,以此可以更真实地模拟 NTD 和 RBD 之间的相对运动。
最终,微软亚洲研究院首次提出了 NTD 在病毒侵染过程中发挥调控作用的“楔形”模型,相关成果于21年10月在著名期刊《Advanced Theory and Simulations》上作为封面文章发表。“其实 RBD 是倾向于躺平的,这和人一样,躺着肯定更舒服,但当 RBD 想躺下的时候,NTD 会像楔子一样堵住 RBD 下方的空隙,从而使其维持站立的状态,感染人体。”微软亚洲研究院主管研究员王童形象地解释了他们从模拟中取得的发现。
利用这种“楔形”模型,研究员们进一步在对中草药数据库 TCMSP 中的中药化合物进行虚拟筛选,检测到了8种中药中的18种化合物与 NTD 作用的该位点具有很强的结合能力,从而为新冠病毒药物研发提供了一定的参考价值。
像这样利用计算机模拟的方式去做生物学实验,甚至去预测和推论,被称为“干实验”。但生物学研究还是不能离开“湿实验”,也就是基于分子、细胞、生理等层面的生物实验。在开展 NTD 探索性研究的同时,王童了解到清华大学王新泉教授和张林琦教授的团队正在合作开展新冠病毒致病机理的研究。于是三方一拍即合,通过清华两位老师团队的结构生物学和免疫学实验发现,与其他冠状病毒相比,新冠病毒 S 蛋白372号位点的突变使得370号位点缺失了糖基化。这一变化促使 RBD 更多处于站立状态,增强了病毒的感染性。而微软亚洲研究院利用分子动力学模拟等计算手段进一步具体分析了 S 蛋白370位点糖基化对 S 蛋白构象变化和病毒感染能力的影响。最终,通过干湿结合的手段验证了结论的正确性,相关论文也已被生物学领域的顶级期刊《Cell Research》接收。
对于这项三方合作开展的前瞻性科研工作,张林琦教授表示“我们在众多信息和生命活性的相互作用中找到了一个极其重要的点。它是在大量数据分析、实验验证以及预测的基础之上得到的结果。通过与微软亚洲研究院合作,我们看到将计算机科学与生命科学系统对接,可以加速找到生命现象的关键环节,解决一些生命科学的问题,并进一步了解生命科学本身,从而对研发新药物来阻断或者促进某些生命现象起到了标杆性的作用。”
AI为生命科学研究开辟新方向,开拓新产业
正如张林琦教授所言,AI、大数据等创新手段与生命科学的深度融合正在为生命科学研究开辟新的方向,甚至改变生命科学的研究范式。生命科学研究发展至今,经历了不同的阶段,从20世纪前的描述观察,到20世纪的实验分析,在科学家们的努力下,生命的密码正在逐渐被破解。但这些传统生物学研究方式依赖于不断地试错和积累,不仅耗资巨大,周期往往也很长。同时,基因组学等底层数据采集技术的发展以及药物试验中持续产生的数据等等,也让生物数据呈现爆发式增长。虽然这为个性化的靶向药物研发、精准医疗提供了可能,但海量数据也注定了单靠人力完成数据的整理、分析和挖掘已是不可能完成的任务。
如今,随着算力的提升、机器学习等模型的精进,大数据使得计算生物学的研究条件越来越完善,在基础科学研究中扮演着越来越重要的角色。对于 AI 与生命科学的结合,龚海鹏教授说道,“我们能不能从湿实验得到的数据中发现规律?人的逻辑思维可以有一个大致的判断,但还不够细致,AI 在这方面就能体现出它的优势。”对此张林琦教授也表示认同,他认为生命科学不能只靠感觉,而是要朝定量化和精准化的方向发展,“湿实验看到的结果往往是静态的,但所有的生命过程都是动态的,分子结构变化更是瞬时反应,在自然条件下一闪而过,人的肉眼连看到的机会都没有。在模拟分子动态变化以及定量评判方面,一些新的算法和技术能发挥非常大的作用,”张林琦教授说。
除了促进病毒、致病机理等基础科学研究的发展,计算机科学与生命科学的结合也可能会创造一个全新的生物医药产业。早在2018年,埃森哲(Accenture)就曾在一份统计报告中指出,“到2026年,大数据与医学和制药领域的机器学习相结合将产生每年1500亿美元的惊人价值”。
传统的新药研发极具风险和难度,周期长、费用高,过去十年药物开发项目从1期临床到获得 FDA 批准上市的成功率仅为7.9%。对此张林琦教授深有感触,不久前由他领衔研发的新冠“特效药”——单克隆中和抗体安巴韦单抗/罗米司韦单抗联合疗法获得中国药品监督管理局(NMPA)的上市批准,有助于治疗新型冠状病毒阳性患者。他说,“AI 在新药研发整个过程中的每个节点都可以发挥巨大的作用,比如为抗体的筛选、评估、预测、优化等提供支持,缩短研发时间,降低研发成本。另外,如果能在大数据分析的基础上利用 AI 技术总结规律、进行预测,在病毒突变之前,设计出专门针对突变的抗体,那么我们就能先下手为强,化被动为主动。”未来,从原始研究到临床试验,在生命科学产业的全链条上,通过跨界研究把干实验和湿实验无缝衔接,形成真实世界和理论数据的闭环,将为生命科学带来更广阔的发展前景。
跨领域、交叉学科协同合作,打破次元壁的秘籍
尽管计算机科学与生命科学的跨界合作大有可为,但协作过程还需要更多的磨合。两个领域的科学家所面对的是两类不同的知识结构、语言体系,如何打破行业壁垒、共建合作生态是关键。微软亚洲研究院与清华大学通过上述两项合作研究,为跨学科交叉实践积累了一定的经验。
那么不同背景的科学家协同合作的秘籍是什么?
首先,明己之长,知己所短,优势互补。张林琦教授长期专注于艾滋病等人类重大病毒性传染病的致病机理、抗病毒药物、抗体和疫苗的研究;王新泉教授的主要研究方向是结构生物学;龚海鹏教授则致力于把分子动力学模拟等新方法用于分析生物大分子的大尺度构象变化。他们及团队在各自的领域都有着深厚的积淀和世界级的影响力。这些专家对生命科学专业、前沿的洞察为算法提供了实现基础,可以帮助算法专家理解数据背后的科学意义。而微软本身是以计算机技术为核心能力的平台公司,在人工智能、云计算等领域能为其他学科提供强有力且最先进的计算机科学加持。
“微软亚洲研究院在生物学、材料科学、物理和化学方面并不是专家,所以我们需要与真正的领域专家共同努力、密切合作。在这个过程中,双方会互相影响,相互改变。AI 科学家可以提供基于数据的端到端解决问题的思路,提供比传统科学计算更加高效的解决方案;自然科学领域的学者则可以提供独到的领域知识,让这些计算能力以一种符合科学规律的方式用到刀刃上,”微软亚洲研究院副院长刘铁岩表示。
其次,跨领域合作需要提出最具有前瞻性、挑战性的科学问题。只有前沿课题才能发挥双方实力,激励科研人员克服困难,合理调配资源。刘铁岩表示,“虽然人们认为 AI 能够在任何领域发挥作用,但如何找到关键的科学问题才是关键所在,这需要领域专家与 AI 专家坐下来细致地讨论,不断淬炼出真正重要的问题。”合作伊始,微软亚洲研究院的研究员们与清华大学的师生团队也遇到了预期不匹配、沟通鸿沟等问题。通过随后定期的会议与学术讨论,双方逐渐明确了彼此的优势所在,找到了“最难啃的骨头”。当实验结果出现差异时,大家会从不同角度共同分析问题产生的原因,不断磨合,增强了彼此的信任。
最后,是要有耐心与恒心。生命科学研究是一个漫长而枯燥的过程,很多基础研究短时间内都无法带来直接的收益。对此龚海鹏教授认为“做科研需要踏踏实实。解决生物学的实际问题,要以推动科学发展为目标,而不是以发论文为目标。微软亚洲研究院在提供强大的计算资源、AI 算法的同时,在合作研究中也极具耐心,这是跨领域合作的基础。”
在双方的合作中,大家也加深了对彼此所在行业和机构的理解。在合作之前清华大学的老师们还有些疑虑,“在我们眼中,企业的研究部门更多的是以短期业绩为导向的。但合作之后我们发现微软亚洲研究院是一个真正的学术机构,尤其是‘顶天立地’的价值取向和学术定位与清华大学的理念非常吻合。也只有这样才能开展更具学术性的研究合作,”王新泉教授说。
无论是用深度学习优化大气污染排放量、把 Graphormer 用于催化剂设计、神经网络用于新物理发现,还是近期 AI 领域顶会 NeurIPS 上火热的科学相关主题演讲,都昭示着 AI for Science 已经成为一种趋势。计算机科学、人工智能与生命科学、生物医药、量子科学、天文学等一系列基础科学研究交织碰撞,将为科学发展注入新的强劲动力。而在这一浪潮中,微软亚洲研究院也将继续与科学界合作,取得更加亮眼的成绩。