李琨:执著于高性能计算研究的“别人家的孩子”

2023-02-24 | 作者:微软亚洲研究院

2022年4月30日,对于微软亚洲研究院研究员李琨来说是个很特殊的日子——“一夜爆火”成为学校风云人物,这让本就有些“社恐”的他花了好几天时间才习惯。原来在前一天,李琨拍摄了一段自己面试求职经验分享的 vlog,并引发了众多网友的围观。优秀的科研和项目履历让他获得了多家知名企业的 offer,同时也被网友称为“别人家的孩子”,成了校园内的“网红”。现在,这个“别人家的孩子”已经加入微软亚洲研究院,成为了“异构计算组”的一名研究员。

而就在上个周末,李琨因为他的博士毕业论文《大规模并行多层次不连续非线性可扩展理论研究及应用》获得了2022年度“CCF 优秀博士学位论文激励计划”(简称“CCF 优博奖”),前去参加了 CCF 颁奖典礼。领奖的那一刻,他无比激动,“CCF 优博奖”代表着自己多年来在高性能计算领域的研究工作得到了学术界的肯定,坚定了他继续从事科研探索的动力与决心。作为 up 主,李琨也以 vlog 的形式,记录了这一难忘的“高光”时刻。

“别人家的孩子”在博士期间坐过四年的“冷板凳”

2012年 ,刚刚进入大学的李琨和很多人一样,并没有明确的专业方向。机缘巧合之下,他被调剂到了计算机专业,在接触到计算机之后,李琨发现通过编程,以代码的形式可以实现很多有趣、奇妙的事情,也可以开发出不同的软件和硬件的新功能。这让原本就对理工科较为擅长的他,开始对计算机尤其是并行计算、高性能算法和软件的设计产生更浓厚的兴趣。至此,李琨踏上了高性能计算(HPC)研究的“不归”路。

2016年,李琨以优异的成绩直博进入中国科学院计算技术研究所,继续从事高性能计算方面的研究。但是博士的求学之路并不是一帆风顺的,回顾那几年,李琨总结了十六字箴言:但行好事,莫问前程;道阻且长,行则将至。

李琨用“一直在坐冷板凳”来形容自己读博后的前四年。尽管他不断参与各类科学研究和工程项目,但相关成果一直未在领域内的知名会议或期刊上得到接收。从学术的角度来看,这意味着自己一直以来所做的工作并没有得到同行和学界的认可。对大部分博士生来说,这会是非常令人沮丧和焦虑的,心态也可能会崩溃。李琨坦言,在博士前四年的屡试屡败中,自己也时常游走在崩溃的边缘。不过即使如此,他依然坚定着对高性能计算方向的研究。在李琨看来,不断试错的过程也是经验积累的过程。为了更好地推进研究,李琨会及时与同学、朋友和导师沟通,探讨研究工作中遇到的难点,讨论可行方案,避免研究偏离正确轨道。在交流过程中,他也能纾解心情,让自己保持一个平和的工作心态。

功夫不负有心人,付出总会有回报。博士阶段后期,李琨的研究工作陆续开花结果,多项工作相继被高性能计算领域的顶级会议与期刊接收,相关研究也推动了高性能算法和软件在国产超算平台上的大规模研发,产生了较强的影响力。因为李琨坚持不懈的探索和出色的研究成果,2022年6月,他获得了中国科学院院长奖,该奖项是中国科学院研究生奖学金中含金量最高的奖项之一,旨在表扬和鼓励那些在科学研究和技术创新方面做出突出成绩的研究生。

微软亚洲研究院研究员李琨

近期,他的博士学位论文《大规模并行多层次不连续非线性可扩展理论研究及应用》还获得了2022年度 CCF 优博奖和2022年度 ACM SIGHPC 中国优博奖。该论文系统性地总结了李琨在博士六年期间的工作和成果:通过对大规模并行多层次不连续非线性可扩展理论展开研究,深入分析可扩展性发展规律,提出了多层次协同设计理论,在多种硬件并行规模、不同软件并行粒度、各级交叉并行应用上开展了多种可扩展性的优化设计。

李琨表示,“很荣幸能够获得这些奖项。其实,我是站在了巨人的肩膀上。博士阶段的很多工作都是实验室里多年的科研和项目沉淀的结果,这离不开导师和各位指导老师的培养和指导。同时,博士论文的撰写工作很多也是在微软亚洲研究院实习期间完成的,这期间系统与网络组的各位前辈也给我提出了很多宝贵的意见。这些奖项是对我这些年工作的认可,给予了我更大的信心继续从事高性能计算研究,并激励着我在这个方向持续探索。同时,这也能够让更多人了解高性能计算,吸引更多的优秀人才加入到这一研究的行列中来。”

Big Science on Cloud让“科学计算”更普及

2022年的毕业求职季中,李琨收到了多家知名企业和研究机构的 offer。最终,李琨选择了微软亚洲研究院,正式成为“异构计算组”的研究员。

谈到选择微软亚洲研究院的原因时,李琨说:“我对研究院早有耳闻,一直向往来这里工作。博士期间我有幸加入系统与网络组进行实习,并了解到微软亚洲研究院对科学计算(Scientific Computing)非常重视,这刚好和我的研究方向匹配。所以,我在实习过程中就与各领域的科研前辈共同探索将高性能计算与机器学习驱动的科学研究进行融合,这些交流与合作再次加深了我对科学计算研究的兴趣,也让我对研究院有了更多的了解。研究院充满着自由、包容的研究氛围,而且有许多优秀的人才,大家都会基于平等的身份互相学习、交流、探讨问题。更重要的一点是,研究院鼓励长期思维,不会催促你短期内尽快出成果,也不会以论文数量为导向,这给了年轻学者更多的试错机会,让我们能够勇于尝试,开拓新的研究方向。”

在研究院的实习生社团活动中,李琨体验 VR 游戏设备

读博期间,李琨就开始关注科学计算的研究。在他看来,很多生物学、化学、物理学上的科学发现和探索,不仅需要科学家的努力,还需要与计算机相结合才能充分发挥算力来加速大规模计算。比如李琨参与过的核材料辐照损伤观测,现实中它需要几十年甚至上百年的时间才能观察到结果,这显然是不现实的,而有了超级计算机和高性能计算技术的帮助,则能通过数值模拟,大大加速科学研究的进度。

过去几十年,科学计算领域也正朝着这个方向蓬勃发展,在发现遗传学奥秘、地震模拟预测、新冠肺炎疫情预测上都取得了进展。但这些模型严重依赖于运维成本高、软件移植效率低、硬件可扩展性不佳的超级计算机,更重要的是,并不是所有机构和研究人员都能轻易获得这些计算资源,这严重阻碍了科学计算研究的普及化。

凭借硬件和网络技术的进步,像微软 Azure 云平台这样的云基础设施广泛采用统一的 CPU 和 GPU 异构架构,从而推动了人工智能的繁荣发展。与传统超级计算机相比,云平台可以为科学计算提供一个高性能、低成本且弹性扩展的计算平台。但是,云平台上也存在一些未解决的问题,例如如何让 AI 驱动的 HPC 应用获得更高精度,如何提升对 AI 基础设施的利用率,如何降低 HPC 优化技术的门槛等等。因此,云平台上的“HPC+AI”也成为了李琨和异构计算组当前研究的主要课题之一。

为此,微软亚洲研究院异构计算组提出了 Big Science on Cloud 的理念,其目标是通过创新性地协调云上高精度和高性能计算单元,实现面向所有用户的通用一站式“HPC+AI”的科学解决方案,从而更高效地实现广泛的科学计算。

“对于 HPC+AI 的研究,目前我们异构计算组主要关注两点:一是专注于科学计算中经典高性能算法的异构优化研究。以 Stencil 算法为例,它是高性能计算中的七大关键算法之一,也是许多科学计算应用中的关键算法。我们以这个传统的 HPC 算法切入,进而提升云上科学计算的性能;二是以算法为基础,逐渐将其拓展至应用层,如分子动力学的大规模模拟。事实上,我们不仅仅是算法的设计,更多地是以算法为用例,结合 AI for Science 领域,探索云上高性能、低成本、可扩展的大规模异构并行研究。”李琨说。

李琨(第一排右一)和异构计算组同事们

身份的转变代表着更大的责任

从实习生到研究员,不仅仅是角色的转变,更是心态的转变。李琨认为,做实习生时还是保持着在校学生的心态,研究时更多地是遵循导师或 mentor 的建议,沿着较为明确的方向或想法前进实现即可。

然而,成为正式的研究员之后,肩上的责任变得更大了。除了要对自己负责,还要对实习生、对共事的同事负责,工作内容也会变多变广。探索研究时也要开拓新思路,形成新想法,全面思考问题,并建立长远思维,让研究工作具有更深远的影响。

“无论是上学期间还是现在工作,每一个新想法都让我感到兴奋。科学家们在探索未知过程中‘攻坚莫畏难’的钻研精神也深深影响着我。希望借助微软亚洲研究院这一广袤的科研腹地,我可以与各领域优秀的科研人员一起做出更多有意义、有价值的创新成果。”李琨说道。

标签