星跃重洋 | 刘国栋:非典型理工男在微软亚洲研究院的科研“旅”记

2022-03-18 | 作者:微软亚洲研究院

结束一天的科研工作,中国科学院计算技术研究所博士生刘国栋走出微软大厦,抬头是繁星点点,耳机里装的是苏打绿乐队温暖的旋律。

通过“星跃计划”在微软亚洲研究院实习一年,刘国栋在微软亚洲研究院主管研究员苗又山、微软雷德蒙研究院高级研发工程师 Saeed Maleki 两位 mentor 的指导下,围绕加速深度学习模型的训练进行着科研探索。

恰如设立初衷,“星跃计划”在优秀人才与微软全球两大研究院的研究团队之间架起桥梁,为他们创造了一起聚焦真实前沿问题的机会。对刘国栋而言,这场“跨越重洋”的科研之旅不仅让他实现了自己的科研设想,也让他在思考方式和科研品味上有了新的顿悟。

一名科研小生,如何在科研道路上披荆斩棘?
一位非典型理工男,如何汲取科学与艺术的魅力?

在微软亚洲研究院,刘国栋找到了属于自己的诸多答案。


刘国栋

 

用简单漂亮的思想,解决复杂的问题

“想通过简单但漂亮的思想,解决复杂的问题。”这是刘国栋加入微软亚洲研究院“星跃计划”的机缘与初衷。

在一次国际会议上,他读到一篇令他印象深刻的文章:微软亚洲研究院和北京大学、上海科技大学合作提出了一种可以提升深度学习计算速度的编译框架 RAMMER。“研究员们通过一些很漂亮的系统层面的思想,解决了一个很有意义的问题。”刘国栋非常期待自己也能做出这样的工作。

他与微软亚洲研究院的故事便由此拉开序幕。去年一月,当看到“星跃计划”招募文章中的 High-performance Distributed Deep Learning 项目时,刘国栋感到眼前一亮,“我之前就一直关注这个方向的研究,相关课题对于硬件资源的要求比较高,我在学校做有点困难,而微软恰好拥有非常丰富的硬件资源。没有过多犹豫,我直接申请了这个项目。” 刘国栋的导师、中国科学院计算技术研究所副所长包云岗教授也很支持刘国栋更多地进行有价值的科研探索。去年三月,刘国栋正式入选“星跃计划”。


刘国栋在微软亚洲研究院工位上

一年的“星跃”之旅已颇有成果。由于深度学习模型的训练往往非常耗时,很多研究者都在尝试用各种方法加速训练的过程,以节省时间成本和经济成本并节约能源,帮助其他研究者更快地实现他们的模型。刘国栋及其所在研究组提出的优化方法,已经能在诸如 T5 这样百亿参数量的模型上,实现 1.5 倍的加速。

“这个数字听起来比较小,但实际上一个模型的训练不仅需要很多硬件资源,也常常耗时数十天。所以哪怕能加速 10%,带来的经济收益和节约的能源也是非常可观的。”刘国栋介绍道,接下来他们会将这些思想和方法形成论文,并期待与其他课题组合作,将实验性的想法应用到一些大规模模型的部署中,如 GPT、T5、Swin Transformer 等。

在 mentor 苗又山看来,刘国栋的科研潜质不仅在于扎实的专业知识,更重要的是勤于思考、专注钻研的特质与探索科学问题的热情,因此能以较快的成长速度在后期承担重要的实验工作。另一位 mentor Saeed Maleki 也表示,刘国栋加入“星跃计划”以来做出的成果给他留下了深刻的印象:“国栋刚开始对我们正在研究的课题没有太多经验,但就在一年的时间里,他优化的技术在 Transformer 模型上实现了比 Megatron 更好的并行效果,而 Megatron 是目前分布式机器学习公开领域最先进的系统。”

 

“1.5 倍”加速的背后,是现实对理想的“超车”

创新性和飞跃式的工作从不是一蹴而就的。刘国栋在提出分布式训练的优化方法之前,进行了大量基础繁琐的工作:修改参数、收集数据、图表分析……正如学校导师包云岗教授对他的教导:“系统性的研究,需要先把自己的手弄‘脏’。” 在微软亚洲研究院,他也践行着这样的原则。刘国栋坦言,这个过程非常耗时且单调,但基础工作必不可少,然后才能找到研究的突破口。

在研究初期,为了提高模型总体的训练效率、进行分布式的训练加速,刘国栋提出了一种更加灵活的模型分布式部署方案。 “这个点子的内核思想是很简单的,但我期待它可以漂亮地解决问题。”刘国栋说。然而工作推进一段时间后,刘国栋发现:大部分模型都比较规整,模型里的神经网络层都非常相似,这就使得灵活的分布式部署的优化空间非常有限。

“当时比较沮丧,觉得想法很美好,但现实并不那么好。”正在刘国栋想要放弃的时候,mentor 苗又山认为他的点子很有意思,并引导他换一种思路:这个方法能不能用到别的模型上?用于别的场景会不会有更高的收益?于是,刘国栋开始尝试其他模型以及硬件异构的场景,并使之实现了更高的收益,让这个点子发挥了更大的价值。

一波未平一波又起,接踵而至的是第二个困难。当刘国栋试图用一种更加灵活的方式来分布式部署模型时,内存的开销也随之变大,内存开销变大限制了性能的提升。“又是理想跟现实不一样的状况,”这一次刘国栋主动和 mentor 沟通,苗又山提醒他:问题变复杂并不是一个坏事。

确如苗又山所说,刘国栋意识到,自己发现了一个前人没重点关注的现象——对模型的灵活部署导致内存开销增加的问题,或许是他未来研究的新空间。“如果这个问题只需想一层就能解决,那这个工作本身的意义就没那么大了。”刘国栋认为把沮丧转化成机会,就能经常在科研之中感受到一些比较有趣的部分。

如“过关斩将”一般,经过这两次挫折与突破,刘国栋的心态愈渐稳定:做科研虽常面临理想与现实的差异,但挫折反而会让他感到兴奋。再面对意料之外的问题时,刘国栋会选择去追问问题背后的原因,“一旦你追问为什么,可能会发现其实它不是你实现上的错误,而是你在某个地方就没有想清楚。”刘国栋认为,“回溯”能帮助自己更好地去理解问题,同时也可能会给研究带来新的可能性;更不要害怕理想与现实的差距,因为出现差距很可能是一个新的机会。

 

星跃重洋,“1+1>2”的 mentor 指导

对于刘国栋来说,无论是科研工作上的进展,还是科研心态上的成长,他都在微软亚洲研究院收获颇丰。

“星跃计划”采取双导师制,项目中的实习生都会在微软亚洲研究院、微软全球总部两方导师的指导下进行科研工作,并有机会与不同研究背景的科研人员深度交流。在双导师的带领下,实习生们将聚焦工业界的真实前沿问题,致力于做出对学术及产业界有影响力的成果。

刘国栋的两位 mentor 拥有不同研究背景,他们从不同视角为刘国栋带来了“1+1>2”的科研助推。作为在系统研究方向深耕的研究员,苗又山常在思路层面对刘国栋进行引导。刘国栋说,“曾经我特别容易陷入问题的细枝末节里,但现在我意识到:如果这个问题本身没那么重要,就应该赶紧跳出来往前走,并学会转换视角去思考问题。”苗又山的指导让他形成了主线意识发散性思维

刘国栋(左二)与 mentor 苗又山(右二)及组内同事合影

Saeed Maleki 则在分布式机器学习领域有着丰富的工程经验,常常会从另一个视角来看问题。“他会很敏锐地捕捉到通信效率提升的可能性,并提示我从通信的角度看待我所做的优化。”刘国栋说。

在刘国栋看来,两位 mentor 都是温和的人,但对研究又高度严谨。“苗老师做研究的要求高,所以常常会很直接地对我的工作提出疑问。他会问我,你提的这一点它背后的原因是什么?这么做到底有没有意义?”刘国栋回忆道,自己长期以来处在较为安全的环境中,不会面对太多的质疑和批评;在微软亚洲研究院面对 mentor 不断提出的疑问,让他在思考问题时更加深入和清晰,也能更加开放、从容地面对质疑了。

对于刘国栋的成长,mentor 苗又山并不意外。在他看来,刘国栋拥有很强的内驱力,能够主动地探寻新的思路,并且通过不断地反思和调整提升自己的认知。这样的思维方式使刘国栋的思考逐步深入,从而揭示更本质的问题,并引导他有效地制定进一步探索的计划。与此同时,在一次次跨洋组会中,刘国栋的英文演讲能力也获得了明显提升,无论是宏观思路的流畅性还是细节的清晰性。

刘国栋参加微软亚洲研究院活动

与研究员、实习生们的交流、碰撞让刘国栋受益颇多。他所在课题组每周都有两次常规组会来更新工作进展,所有实习生进行工作汇报并开展广泛的讨论。对于具体的问题,刘国栋时常会和两位 mentor 发起临时讨论,解决急迫的问题或进行头脑风暴。除此之外,每周还会进行一场大组会,除了刘国栋的两位 mentor,微软亚洲研究院和微软雷德蒙研究院相关方向的许多资深研究员都会参与。

“在大组会上,我有机会听到更多实习生和研究员做的工作,这常常对我很有启发。其他研究员也会对我的课题提供建议和想法,这能有效弥补我的缺漏。”刘国栋表示,在线下与线上的交流合作中,他也愈渐感受到微软两大研究院国际化、开放的科研氛围,以及多元与包容的文化。

 

非典型理工男,科学与艺术的碰撞

这样一个热衷于与科研“较劲”的理工男,却常常被朋友们评价为“文艺青年”。

在很多个天朗气清的午后,刘国栋会选择抱着相机,走在北京的大街小巷,看晨曦暮霭,看浮云悠游;或是穿梭于各个艺术展览,在每一件欣赏的展品前流连驻足。


带着相机的刘国栋

刘国栋摄影作品

这样一位“非典型理工男”为什么会选择计算机专业?

“因为我觉得计算机领域蕴含了许多有趣的思想,这和艺术一样都很吸引人。”刘国栋认为科学思想也可以非常迷人,并且也是具有艺术性的——科学与艺术的碰撞,促使他更愿意去做科研工作。

对于理性与感性的平衡,刘国栋也曾在微软亚洲研究院受到启发。在微软亚洲研究院院长周礼栋博士的“咖啡时间”分享会中,周礼栋院长“要去寻找你的内在动力”的观点令刘国栋印象深刻——只有找到自己的内在动力,才可能真正对自己做研究的状况和生活状态感到满意。

周礼栋院长分享的很多观点与思考,直到现在仍影响着刘国栋,“后来我也一直在寻找自己的内在动力,我会一直把这件事情作为生活中的一个小小计划和任务。”刘国栋认为,科学中的艺术性算得上是他的动力之一,但他仍将继续寻找和追求其他的源动力。


刘国栋(后排左二)参加微软亚洲研究院院长周礼栋博士(前排右三)“咖啡时间”分享会

关于未来,刘国栋计划继续完善在微软亚洲研究院的研究,并希望有机会与微软亚洲研究院的研究员持续合作,实现更多科研新想法。“在学界与业界之间,微软亚洲研究院提供了一个完美兼顾两者的新选择——在工业界做研究。”刘国栋说。

“在企业里面做研究,是一件挺有意思的事情,我体会到了一种做科研的新模式。”刘国栋说,在微软亚洲研究院他不只是接收到更多前沿资讯和技术,更重要的是观念层面的变化:避免增量式而无创新的工作、提升自己的研究品味、做能影响和帮助更多人的科研……

“做真正有意义的工作,并将之完成得很漂亮,内心会感到踏实、满足。”刘国栋表示,从这里再度出发,他希望自己今后能做出让更多人受益的工作。

 

Mentor 寄语

苗又山(微软亚洲研究院主管研究员):刘国栋同学是一名非常优秀的实习生。他专业知识扎实,且思维敏捷、勤于思考、认真专注。他入职近一年以来,我们的合作非常愉快。实习期间,他不断学习提高自我的同时,也在我们 Redmond、Asia 两个研究院合作的科研项目中发挥了重要的作用。我希望刘国栋同学能够保持对于科研的好奇,不断进步、再接再厉,在研究的道路上获得更大的成功。

Saeed Maleki(微软雷德蒙研究院高级研发工程师):Guodong’s greatest ability is to catch up to the state-of-the-art for a research problem. We have been working with Guodong and been impressed with his accomplishments given that he didn’t have much experience with the topic we are working on. In the span of one year, he has developed techniques that beat Megatron parallelism for transformer models which is the state-of-the-art for distributed machine learning. Currently, he is expanding his work to utilize AI-based tuning techniques to further optimize the machine learning workloads. I look forward to continuing working with him and seeing him thrive.

标签