实习派|刘泽:马尔奖得主成长之路,定位真正重要的问题

2023-05-11 | 作者:微软亚洲研究院

初入微软亚洲研究院实习时,尚无任何科研经验的刘泽也许想不到,三年后,他将斩获马尔奖——计算机视觉国际大会(ICCV)最佳论文奖,这也是计算机视觉研究方面的最高荣誉之一。 之后,他更在 2022 年获得微软学者奖学金,成为全亚洲 12 名获奖者之一。

“发现真正重要的问题。”这是他的导师中国科学技术大学王永教授、微软亚洲研究院郭百宁博士和胡瀚博士常常挂在嘴边的话,如今,也是他爱说的话。

那么,他是如何在一众或大或小的“问号”中,找到那个真正重要的问题?他又是如何从一张科研白纸,蜕变成为可以独当一面的研究者?

如果你也好奇,那就请接着看下去吧。

 

定位:好风凭借力,送我上青云

想做科研,这是刘泽选择中国科学技术大学-微软亚洲研究院联合培养博士生项目的朴素初心。

在这里,高水平的导师和合作者,自由的学术环境和充足的计算资源,支撑着他从入门到独当一面。刘泽非常感谢母校中国科学技术大学为他提供这么好的机会,让他可以通过联培博士项目开始自己的科研之路。

科研之途并非一马平川的康庄大道,刘泽对这条险途上的“引路人”们一直心怀感激——学校导师王永教授,给予了他许多具有建设性的方向建议和充分自由的发展空间;微软亚洲研究院导师郭百宁博士和胡瀚博士,则带领着他一步步想选题、推进实验,在培养扎实科研技能、掌握具体技术细节、传授珍贵科研经验的同时,更引领着他去发现真正重要的问题,做真正有价值的研究。

“定位意识”,是胡瀚老师指导时的关键词,即在做一项研究时,需要考虑领域本身所处的状态和位置,什么研究是它真正需要的。初入研究院时,刘泽就投入了很多的时间和精力去绘制自己的“认知地图”,思考目前的发展位置和未来的发展方向,再去判断哪些是真的值得去做的东西。

在 Mentor 的带领下,刘泽与小组成员决定聚焦于通用视觉架构的设计和视觉大模型研究,并尝试着从之前组内的连续性研究中汲取灵感,最终并提出了可以适用于计算机视觉的 Swin Transformer。基于此成果,刘泽作为第一作者在 ICCV 2021 上发表论文并获得最佳论文。这是第一个基于 Transformer 的通用计算机视觉骨干网络,在物体检测和语义分割等任务中大幅度刷新此前纪录,在工业界和学术界得到了广泛的关注和使用,论文目前已被引用近 7000 次。

ICCV 2021 最佳论文获奖证书

好的研究并非一蹴而就, Swin Transformer  也是逐步完成了从“奏效”到“做好”再到“卓越”的飞跃——刘泽和同伴们先是在图像分类任务中进行初步尝试,再是在以目标检测和语义分割为代表的更广泛的视觉任务中验证作用,均取得令人满意的表现之后,他们进一步在更大规模的数据集上进行有效性检验。

Swin Transformer 的成功也不是他们的终点。此后,通过与微软亚洲研究院自然语言处理组韦福如博士团队的跨组合作,他们还基于此开发了第一个通用的视觉大模型 Swin Transformer V2,这也是此前最大的稠密视觉模型——永远不止步现有研究,不断调高科研期望,触碰更高的科研边界,这是属于他们的激情和浪漫。

这一过程也是挑战认知边界、重新定义自我的过程。“其实,失败的情况比较多,但失败也是成果的一部分。”在深夜的实验室里,他伴随着计算机运作时的嗡鸣声在沙发上入睡。但是,在不断“折返跑”的过程中,他反而对那些“反直觉”的节点更为留意和好奇,转而思考这些反常现象背后的本质是什么,继而在“纠误”中再次树立了对这一研究方向的自信。

“首先要选择正确的方向,同时明确目前的发展情况,敢于做具有挑战但是重要的问题。在很大程度上,正确的方向比具体的技术更重要。”刘泽如此总结道。随着技术的快速发展,他已经在大语言模型 (LLM)的迭代中看到了”AGI”的曙光,而未来的”AGI”必须要有视觉能力,这也将是他持续发力的方向。

 

连接:以同道为朋,以同义为友

在刘泽看来,微软亚洲研究院最吸引他的地方,还是“人”本身。

“与导师沟通是读博道路上的不二法门。”刘泽说,作为学生,自己要积极主动一点,多向导师们请教,同时不要害羞于表达自己的真实想法,才能在交流过程中获得切实的滋养与进步。无论是日常的见面与吃饭,还是团建时漫步于植物园和圆明园,他们总是会在交谈中碰撞出崭新的思维火花,从而建立起日益深刻的、充满人情味的连接。

刘泽(左一)与胡瀚导师(右一)合影

与此同时,同样优秀赤诚、眼底有光的同龄人们,也为他的科研与生活打开另一重可能性。

在科研中,他们常常聚在一起头脑风暴,通力合作,一拍即合。“如果你有想法,随时可以找到想要一起讨论的人。因为大家能力和理解力都很强,也有一些合作经验,我们团队基本不会浪费什么时间在无效的沟通上,合作过程是非常愉快的。”在人员安排上,他们往往强调“最合适的人去做最合适的事”。其中,跨组合作更是提供了取长补短、丰富视野的宝贵契机,并带来 “1+1>2”的效果。在生活中,他们也是研究院共同体的一部分,常常在一起分享彼此的喜怒哀乐,并提供真挚的帮助,用言语和行动为对方排忧解难。

刘泽(后排右四)与组内伙伴合影

四年过去,日益成熟的刘泽也从曾经被引路的角色成长为了师弟师妹们的“引路人”。“切换角色之后,视角和想法变得不一样了。”之前,作为任务的执行者,他总是钻研如何在细节上做得更加完美;而如今,他需要看到更广阔的图景,帮助师弟师妹们分析问题、解决问题,指明可能的方向在哪里。

曾经的小树已经长大到足以荫蔽他人,在想法的碰撞中也诞生了新的灵感。对于刘泽而言,“帮助别人也是帮助自己”。

 

触类旁通:做科研如烹小鲜

烹饪,是刘泽除科研外的另一大爱好。对此,他笑道:“在掌握方法论的基础上,怎么做都挺好吃的。”

尝遍酸甜苦辣,方知科研滋味。“其实,想出好的灵感是很困难的一件事,有些时候在不确定自己的想法是否是正确的时候,可以先行动起来,通过实验反馈来寻找灵感。”也正是在一遍遍的行动与试错中,他从“学徒”成长为独当一面的“大厨”,打下了扎实的科研基础,并锤炼了良好的科研心态。

除了家乡当地的“鲁菜”之外,刘泽也常常从其它“菜系”中获得灵感的启发。在联培博士生的学术分享会上,他们毫无保留地分享彼此的成就与困境;在 CVPR 2022 的预讲会中,他们分享自己的科研成果与感悟,一同立于科技飓风的前沿,触摸时代的脉搏。在此过程中,他结识了来自不同领域的优秀研究员和博士同僚,就许多开放的科研问题进行深入的探讨,再次开拓和充实了自己的知识库,发掘到更多具有研究潜力的领域。

刘泽参与 VALSE 进行学术汇报

而顶级的“厨师”和“研究者”,都需要在熟悉程式的基础上打破常规,创造属于自己的作品。“或许我们需要更有想象力一些,不要太循规蹈矩,才能带来更多的可能性。”在刘泽看来,他最大的期望就是实现“有眼睛的AGI”,在计算机视觉领域为 AI “画龙点睛”;而更未来的期望是,可以实现真正像人一样,在语言、视觉、运动、决策规划等领域更加通用的 AGI。

说到这一点时,他的眼睛也是亮的。

山高自有客行路,水深自有渡船人。接下来,刘泽还将怀揣着更多的疑问,和更多的答案,“想做科研“的初心,以及“发现真正重要的问题”的理念,一直走下去。

 

Mentor 寄语

做研究不是什么事都做,遵循“焦点法则”,把 80% 的精力放在 20% 的科题上,那么 20% 的工作会带来 80% 的影响力。祝贺刘泽同学在科研中取得的成绩,希望他能持续把这样的观念根植在科研工作中,在未来取得更耀眼的成绩。

刘泽同学在微软亚洲研究院的五年时间里,深耕视觉基础建模。他在步入科研初期就在 3D 领域小试牛刀,做出 GroupFree-3D 和 PosPool 等工作,尝试改变领域的认知和前进方向。此后,他又终于不负众望的做出了 Swin Transformer 这一里程碑工作,促进了视觉和语言在建模上趋向统一。

生活中的刘泽同学对科研有极大的热忱,具有极强的执行力和钻研精神,极具洞见和创造力。看到他每次跟我探讨科研想法时候眼里的光芒,以及深夜时常奋战的忙碌身影,我就会坚信,未来的他一定会在他所感兴趣的领域里持续发光发热,取得更大突破和创造出独特价值!

标签