实习派|从微软亚洲研究院到哈佛,他们在这里塑造科研品味
2022-12-01 | 作者:微软亚洲研究院
作为走在科研道路上的人,如何快速找到志同道合的伙伴?
“来微软亚洲研究院实习!”在研究院同期实习,而后双双远赴哈佛大学读博的李缙与杨笑东给出了这样的答案。
在微软亚洲研究院实习期间,二人在微软大厦健身房偶然相识,后来发现彼此身上有太多共同点:本科就读于中国科学技术大学,毕业后来到哈佛大学攻读博士学位。他们曾在素不相识时上过同一堂概率论,又在本科的最后一年不约而同地来到微软亚洲研究院实习了一整个学年。在微软亚洲研究院,他们自由地探索新知、扎实地开展科研、持之以恒地与同道中人交流共振,在这里的经历从科研理念、技术、视野等方方面面为他们日后的科研之路奠定了坚实的基础。让我们跟随他们的故事,一起看看他们的工业界研究院科研初体验!
找有价值的问题,做有品位的研究
当被问及“在微软亚洲研究院实习这一年对你最深的影响”,李缙和杨笑东给出了相同的答案:科研品味的塑造。在研究院的实习让他们意识到“树立正确的研究观念、打好坚实的研究基础”的重要性。对于实习时还在科研起步阶段的本科生来说,这也将长久地影响他们的科研之路。
大三暑假,杨笑东主动联系微软亚洲研究院主管研究员张辉帅,想做一些与差分隐私相关的理论研究问题。在中科大,笑东主修基础数学专业,在学习 John Duchi 信息论与统计课程后对相关问题产生了浓厚兴趣。正式来到研究院实习后,笑东在 mentor 张辉帅的指导下开始就该方向展开探索,这也是笑东第一次参与到机器学习相关的研究课题中。
“首先要找出一个自己觉得值得被研究的问题”,这样才能产生持续的动力与成就感,杨笑东说。基于严格数学原理得到的差分隐私被公认为是隐私保护的黄金标准,如何在差分隐私的限制下界定机器学习和统计算法的性能表现是理论工作者长期关注的问题。在人工智能时代,数据是推动机器学习算法创新的核心要素。笑东希望以数学为工具,在理论视角下解决计算机等应用领域中的问题。
经过多次讨论,杨笑东和张辉帅决定做一个用正则化替代差分隐私算法(DP-SGD)的裁剪操作的新算法,分析其在非凸目标函数优化的收敛性,用于训练众多的机器学习模型。对算法和数据分布做出假设是理论研究的关键一步,他们需要提出一个既符合实际又有潜力得到有意义的理论结果的假设。而现存的理论结果或是不考虑常用的裁剪操作,或是基于偏离实际的假设。
伴随着无数次与 mentor 张辉帅的讨论,笑东不断修改假设。推数学公式的过程充满挑战,笑东则将其归为科研常态,一步步推动研究不断前进。张辉帅表示,笑东是他合作过最优秀的同学之一,“在科研中非常主动,对研究能深入,不浮于表面,我们每次讨论都能有新进展和新思路。” 杨笑东也表示 mentor 十分尊重自己的研究兴趣,“感觉在相处过程中,他们会把我们当作一个合作者一起探讨问题”。
最终,他们引入随机优化领域中用来处理梯度剪切的数学技巧、使用梯度归一化这种新的优化方法,使该项目第一次在合理假设下分析了现在差分隐私最常用算法(带裁剪的DP-SGD)的收敛性,提出了一个新的算法正则化 DP-NSGD。新算法对超参数鲁棒,能够节约计算资源并减少多次调参带来的隐私泄露风险。经历了半年多的研究,这项工作已完成并作为预印本公布,正在投递机器学习领域顶级期刊 JMLR。
生活中的杨笑东
李缙所属组别则是系统研究组。同样地,相较于其他领域,系统领域的项目周期相对更长,甚至有会做两三年的项目。选择了“慢工出细活”的领域,也使李缙养成了稳健的技术心态,“更愿意挖掘出其中的复杂性”,做真正有价值的工作。
在实习的一年时间里,李缙一直在 mentor 微软亚洲研究院高级研究员陈琪的指导下专注于搜索引擎系统研究,为高维向量索引提供高效更新能力。李缙介绍,搜索引擎需要在互联网浩瀚的文档海洋中,找到与用户搜索内容最匹配的信息并反馈。由于当前网页数量多、信息生产快、用户基数大,很难对信息进行实时更新与匹配。现有系统大多基于某一时间节点建立索引,再将该时间后更新的数据单独建立索引。搜索时,系统会分别搜索多个索引,将结果整合后返回给用户。这种需要搜索多个索引的方式会影响服务尾延迟,从而影响用户体验。李缙所在团队希望通过调整算法和系统架构,使得搜索引擎里的更新可以实时发生。
李缙也曾想基于现有工作先尝试投出论文,但又觉得有不完善之处和写得不清楚的地方。微软亚洲研究院高级研究员杨凡开导他,在工作做得很完善之前不要急于把论文投出去。这也从观念上奠定了他的科研基础,使他如今能更从容地面对自己的长线规划。
生活中的李缙
交流碰撞是恒久财富,研究院院友身份是珍贵纽带
学术水平的提高与科研品味的培养,既得益于整体的科研氛围,还来自于彼此之间的交流碰撞。
除了做科研项目,杨笑东在研究院最大的收获就是与其他研究者的交流。他参与了由张辉帅、孟琪等研究员组织的研讨班,每周与来自清华大学、南方科技大学等高校的实习生院友们交流分享大家最近关注的研究,并对差分隐私复合技术等前沿专题展开讨论。离职后,笑东仍持续地参与研讨班的交流。笑东认为,这种连接与共鸣是研究院带给他的恒久财富。
杨笑东也很感激在研究院遇到赏识自己的师长,mentor 张辉帅将他领进差分隐私的学术领域,时常与他交流讨论,鼓励他广泛探索,并带他了解学术界运行的规律,“在研究院,我的科研视野大大增长”,笑东说。
笑东还在此结识了志同道合的好友,他发现同组实习生王博涵既是微软亚洲研究院与中国科学技术大学的联培博士,也与自己毕业于同一所高中。即使二人在研究院线下实习的时间并不重合,也并未妨碍他们成为频繁交流的朋友。
杨笑东(左)和 mentor 张辉帅(右)
“与老师们的交流让我明白什么是优雅的、能引起广泛影响的工作”,李缙说,微软亚洲研究院副院长杨懋、高级研究员杨凡、高级研究员陈琪等研究员在每周例会上的指导从根本上扭转了李缙的科研观念。对于正处于博士早期的李缙而言,他也并不急于论文发表,只希望自己在现阶段打好科研基础,从而可以找到真正有价值的问题去探索。
作为李缙的 mentor,陈琪会频繁地和李缙讨论,并从实操层面提出指导意见。例如陈琪曾基于自己的经验,指导李缙在模型中使用读写锁的结构对系统进行修改,实验进程由此被大大推进。面对实验过程中出现的程序并发难题、系统性能瓶颈等情况,他也会直接向 mentor 寻求帮助,并提出一些可能的探索方向。在共同调试程序、一起分析各部分性能并找出瓶颈模块的过程中,“他的主动探索以及不畏艰难的品质让我留下了很深的印象”,陈琪说。李缙当前正在进行的课题中也遇到了一些并发难题,研究院的经验使他在面对问题时更加得心应手。
除了同组的研究员,在微软亚洲研究院,他们还可以与其他方向的研究员交流。微软亚洲研究院高级研究员杨凡就曾鼓励李缙多和研究员们交流,主动探索其他项目组正在做什么工作。李缙提起一次令他印象深刻的交流,微软亚洲研究院可信系统研究组高级研究员陈洋和他分享了自己在以太坊上进行的区块链性能加速的研究,也属于系统研究领域的一部分。李缙在交流后特意拜读了他的论文,赞叹“特别漂亮”,这也对他未来的研究有所启发。
“微软研究院院友”的身份,还成为了他们与全球更多优秀科研者快速拉近关系的纽带。李缙特别提到,自己在哈佛大学的导师 James Mickens 博士曾是微软研究院的研究员,在微软研究院工作七年后重返学术界,James Mickens 也曾来微软亚洲研究院交流学习。这一段缘分让他与导师有了特别的连接。笑东最近在和系里的老师同学交流时,也发现其中也不乏微软研究院院友。
李缙(前排右一)和小伙伴们
再次回忆起在研究院的岁月,李缙和笑东都充满感激,这段经历直接影响了他们对未来的构想。笑东说,“这是我的职业发展初体验,我了解了在企业研究院做研究是什么感觉、和学术界有什么区别,这对我未来的职业选择有深远的影响。”李缙也表示,自己想多多探索一些工业界的合作机会,“如果毕业后能回到微软研究院当然非常好”。未来,他们都将带着在微软亚洲研究院积累的精神财富在科研道路上继续前行。
Mentor 寄语
在过去的一年里,李缙在系统组开展了一项有实际应用价值、能够推进研究领域发展的研究课题,取得了很好的研究成果。尽管项目难度较大,需要较深的系统和算法背景知识,他在整个研究过程中积极主动,充满探索精神,不畏各种困难,快速有效地推动了研究的进展,给我留下了深刻的印象。希望李缙同学未来能够在系统领域继续深入探索,做出有深远影响力的工作,推动系统研究领域的发展!
在一年的实习时间里,杨笑东在机器学习组做出了很有深度、且对实际有指导意义的研究工作。他分析了作为差分隐私机器学习基础的 DP-SGD 算法的收敛性,在贴合实际的假设下证明了迄今最紧的理论结果,并完成了一篇近 40 页的理论文章。笑东对科研乐观求索,对技术深入探究,坚持不懈的科研品质让我印象深刻。希望笑东在哈佛大学继续前进,做出更大更好的工作,成为领域内的明日之星。