实习派|邵奕佳:技能点满的“六边形战士”升级记

2023-01-12 | 作者:微软亚洲研究院

探索新的科研方向会有什么成长?一千多次实验可以锤炼出什么成果?当本科生挑起科研项目的大梁,她会遇到哪些挑战,又迸发哪些能量?北京大学元培学院数据科学专业本科生邵奕佳在微软亚洲研究院的实习故事会告诉你以上问题的答案。

在实习的六个月里,邵奕佳聚焦结构化数据分析,参与了多个科研与产品转化项目,并作为主力成员和研究员一起完成了 FormLM 这一从零开始的探索性研究,以第一作者的身份在自然语言处理领域顶级会议 EMNLP 上发表论文。

邵奕佳被 Mentor 微软亚洲研究院主管研究员周梦宇评价为自己带过 “最靠谱且聪慧的实习生之一”,堪称 “六边形战士”——无论是学习能力、代码能力还是沟通能力,都技能点满、战斗力爆表。在实习中,她持续拓展能力边界。在推进项目时不断锤炼科研本领,在与研究员、实习生伙伴们以及产品团队交流的过程中进一步开拓视野。站在大三这一未来规划的关键节点,这段经历让邵奕佳更加了解自己与科研工作的适配性。她坚定了继续深造、做真实有价值的研究的信念,并决定将自己在实习中深入探索的自然语言处理作为未来的研究方向。

 

首挑大梁,一千次实验锤炼出好论文

“是否要选择做科研作为自己未来的方向?”尝试过不同类型的实习后,邵奕佳希望继续挖掘自己在科研方面的可能性。抱着对纯粹的研究氛围的向往,她向微软亚洲研究院投出申请。

初入研究院,邵奕佳首先加入了 Metadata 项目组。这是数据、知识与智能组和 Microsoft Excel 长期合作的核心项目,很多 Excel 内数据分析的智能体验都会基于 Metadata 来实现。研究团队期望找到处理结构化数据的通用方法,提炼表格数据特征,从而推断信息含义,为用户推荐合理的表格分析与可视化建议。入职后,邵奕佳一方面加入项目研究,对模型进行改进和评估;另一方面参与和产品团队的沟通,探索基础模型的应用前景。在参与项目的过程中,她逐渐熟悉技术和工具,适应在研究院的科研节奏,并展示出了卓越的科研潜能。

在完成 Metadata 项目的部分探索后,邵奕佳在 Mentor 周梦宇的指导下开启了 FormLM 这一探索性研究。他们希望通过对半结构化的在线问卷的建模,为用户提供问卷创建辅助。从提出新思路、设计实验、处理数据、沟通合作者,到文章撰写,奕佳开始挑起大梁。虽然奕佳还是大三年级的本科生,但周梦宇给予了她充分的信任与支持,“科研经验上的缺失,可以通过我的指导和她个人的快速学习来得到弥补。成功的关键在于要有创造力和动手能力,能够清晰思考并坚持向目标一步步迈进。”

尽管此前已经有过科研经历,这仍是邵奕佳第一次在项目中担当主要角色,这也要求她尽快调整对自己的定位与心态。在邵奕佳看来,这种身份转化最大的差异在于独立性——在项目进度等待推进、实验结果与研究计划不一致等情况面前,她的角色不再只是执行者,而需要主动做出关键决定。

将结构化数据与语言模型结合是一个全新的研究问题,从数据收集到模型架构,已有的参考非常少。起初项目的前进方向并不清晰,团队成员间也存在思路上的分歧。在周梦宇的指导和邵奕佳的组织下,大家展开高频次的头脑风暴,在充分磨合后逐渐达成共识,项目逐渐步入正轨。“首先需要在思维方面统一到同一个线上,才方便大家后续一起合作”,邵奕佳意识到项目工作不是单打独斗,考验的不仅是个人能力,更需要整个团队齐心协力。

由于缺乏现成的好方案,他们一起探索了许多可能的方向。不断从各个角度思考新的思路和改进、同时进行大量的实验验证、在大量的负反馈和偶尔的正反馈中继续迭代……在一千多次实验后,可行方案终于浮出水面。最终,文章被自然语言处理领域顶级会议 EMNLP 接收,得到了审稿人平均 4 分的高评价,也为 Microsoft Forms 团队提供了用于多个功能开发的新模型。

  
邵奕佳参加微软亚洲研究院 2022 Family Fest 活动

 

立足产品和用户需求,做真实且有价值的研究

与典型的只基于公开数据集展开研究的模式相比,在微软亚洲研究院做研究的一大优势是有机会近距离了解真实世界的场景并利用其丰富的数据。研究者能够从中探索出用户真正关心的问题,做出与实际应用距离更近的研究。在大数据处理方面,微软也有着成熟的工具和计算资源,这也是吸引邵奕佳来到研究院实习的一个重要原因。

数据、知识与智能组与微软多个产品团队保持着长期合作,许多科研问题都来源于对产品和用户的观察和思考。面对与现实应用紧密相关的研究问题,邵奕佳也加入了微软相应产品团队的讨论,力求从用户需求的视角考虑问题,做出真正能落地、有意义的研究。

在研发团队与产品团队互相支持的正反馈循环下,研究院的研究成果正在被应用于具体的产品开发,为微软用户带来更好的体验。邵奕佳回忆,在 FormLM 项目的起步阶段,研发团队首先面临着缺少直接可用的数据集的难题,需要与多个团队及合作者沟通协调,所需时间超出预期。她多方协调,在产品团队的帮助下,整理出相对大规模的数据集,后续也计划开源。项目初具雏形后,邵奕佳与产品团队展开进一步沟通,测试模型在具体应用中是否有效,帮助产品升级。其中不乏国际团队,“这也提高了我的英文表达能力”,奕佳笑着说。后续,同事们发现在线问卷模型还适用于检测钓鱼问卷等其他用途,这项研究的应用图景正徐徐展开。


生活中的邵奕佳

 

在交流分享中汲取成长的最佳养分

回想起实习时的点点滴滴,邵奕佳表示无论是论文发表还是个人成长,都离不开 Mentor 周梦宇的悉心指导,这也是邵奕佳拥有满格实习体验最直接的原因。一周一次的小组会议,一周两次的一对一指导会议,以及各种临时的头脑风暴讨论会,无论处于哪个研究阶段,师徒之间都一直保持着及时顺畅的沟通。初入职时,他们一起讨论项目目标和框架。刚开始展开研究时,周梦宇为奕佳提供方法论层面的指导,让她明确一个项目应该做什么等宏观问题,并从经验出发建议她列出整体性的时间规划,不要在起步阶段陷入细节中。在研究过程中,从实验思路的设计、研究方法论,到如何和不同的人沟通,他们都因地制宜地保持交流。接近论文截止日期时,周梦宇则会直接提供反馈意见并帮助修改文章。 周梦宇评价邵奕佳是自己带过 “最靠谱且聪慧的实习生之一”,总能超出预期地推进科研项目。在奕佳的博士申请中,他也提供了许多帮助。

除了 Mentor 的指导和帮助,与研究院其他研究员、实习生的交流也让邵奕佳受到许多启发。“大家都愿意听我提出问题并帮助我解决,从来不会陷入无助的情绪里”,奕佳说。初期考虑如何对在线问卷进行建模时,邵奕佳频繁参与组里其他老师与同学的讨论,从不同方向的模式中借鉴经验。在高频次的头脑风暴中,解决方案越来越明晰。

组内实习生们之间的氛围轻松而团结,较早来实习的联培博士生们十分乐于帮助新来的伙伴们融入集体。作为经验相对有限的大三本科生,邵奕佳经常向高年级同学请教,从不同人的经验分享中学习科研方法论,为自己汲取成长养分。在与伙伴们约饭、闲聊的过程中,邵奕佳了解到他们正在做的有意思的项目,对更多领域有了进一步的认识,对领域全貌也有了进一步的把握。

此外,邵奕佳也经常参加研究院专为实习生组织的 Tech Talk。不同于学术会议中的研究成果分享,Tech Talk 让她有机会了解其他工作的研究过程及难题解决方案。各种形式的交流分享开阔了她的眼界,为她的成长提供了最佳养分,“对我后续的暑研经历以及留学申请都有很大的帮助”,奕佳说。


实习生与 Mentor 小聚
邵奕佳(右六),周梦宇(右一)

 

探索性工作虽然困难,但在一波三折的过程中,邵奕佳也发现了其中的乐趣。如果说此前 “工程还是科研” 分岔路口前方的风景仍显模糊,那么这段实习便让她拨开了层层迷雾。“会在未来 5 年或者更长的时间里做更多科研方面的尝试”,邵奕佳坚定了继续深造的决心,也计划将自己在实习中深入探索的自然语言处理作为自己的深造方向。

在实习的半年时间里,邵奕佳作为 “六边形战士”,每个能力维度都得到了进一步延伸——更扎实的科研基础、更全面的项目管理能力、更强大的自我驱动力和实践能力、更快速的学习能力、更清晰有条理的沟通能力……未来,她将心怀远大理想,不断打怪升级,迸发出更大的科研能量。

 

Mentor 寄语

在这半年的实习时间里,邵奕佳在自然语言处理与数据分析领域做出了许多杰出的贡献——参与了多个科研和产品转化项目,在顶级会议 EMNLP 上发表了一作论文,并切实推进了我们与 Excel 和 Forms 团队的合作。这些都证明了奕佳作为 “六边形战士” 级实习生的特质:扎实的基础和追求卓越的努力,以及让我特别欣赏的快速学习、实践和迭代,与清晰思考和交流的能力。对我来说,整个指导与合作的经历都很愉快,因此我极力推荐实习派为奕佳撰文一篇,也期待之后与我合作的实习生们也能这样靠谱给力。在未来的求学之路中,希望奕佳能再接再厉,产出更多杰出的成果,成为一名对人类前沿科技做出独特贡献的女科学家。如果有空的话,欢迎常回研究院看看!祝一切顺利!

标签