铸星闪耀 | 青年学者携手“星搭档”探索无限可能
2020-09-15 | 作者:微软亚洲研究院
微软亚洲研究院“铸星计划”旨在发掘和助力新一代青年学者,使其成为科研创新能力突出、走在世界科技前沿的学术带头人。无论是与领域内顶尖研究员合作的机会,还是最新、最丰富的数据集和强大的支持资源,亦或是产业界独有的实际应用场景,都吸引着青年才俊们来到 MSRA 探索领域内前沿新知。
今天,我们带来了三位“铸星学者”的访问故事,他们分别来自北京邮电大学、中国科学院和华中科技大学,汇聚在微软亚洲研究院副院长周明博士所在的语言、知识和用户组。该组涵盖了自然语言处理、社会计算等研究方向,目的是使计算机具备人类的听、说、读、写、译、问、答、搜索、摘要、对话、聊天、推荐等能力,并可利用知识和常识进行推理和决策,通过对用户的理解和互动,实现客服、诊断、法律、教学等专家过程。
比尔·盖茨曾说,“自然语言处理是人工智能皇冠上的明珠”,而社会计算则是社会问题与计算技术之间的桥梁,“人”都是两者关注的核心重点。通过对语言的理解和对用户的理解,将大幅度推动人工智能在很多重要场景的落地。
在微软亚洲研究院的几个月时间内,三位老师与合作研究员携手完成了哪些工作?通过铸星计划,他们分别有什么样的成就和收获?让我们一起回顾三位老师的铸星经历,看铸星学者们如何在轻松自由的学术氛围中碰撞出科研的火花。
微软亚洲研究院语言、知识和用户组合影
胡琳梅(第一排右五),敖翔(第二排左三)、周明(第一排左六)
段楠(第二排左六)、谢幸(第一排左五)、王希廷(第一排左三)
敖翔:MSRA 让我的研究成为有米之炊
敖翔来自中国科学院计算技术研究所,同所的黄群在几年前就入选过铸星计划,也向他强烈推荐这一项目。敖翔觉得自己应当趁博士毕业五年之内把握机会,“在更高的平台上拓展自己的视野”。
敖翔
来到 MSRA 之前,敖翔心中已有理想的选题雏形——个性化文本生成。这一选题既与他要访问的团队研究方向相契合,也符合他自己的研究背景。但当时的敖翔还未思考过技术路线和验证方法,具体的研究思路,是来到 MSRA 和研究员进行大量讨论之后才逐渐形成的。
敖翔(左二)带学校课题组学生来拜会谢幸老师(中)
个性化新闻标题生成的目的是捕捉新闻读者的阅读兴趣,并将之体现在自动生成的新闻题目当中,从而吸引读者进一步去阅读新闻的全文。“听起来好像很简单,但其实难度很大,”敖翔介绍,这一研究技术上的挑战在于如何捕捉读者的阅读兴趣、体现在标题中,同时标题又要是对新闻内容的准确概括。
这是一项有着重要商业价值的研究。敖翔来 MSRA 之前就想从事类似的研究,但两大难点让他望而却步。其一是手头没有可用的公开数据集,“公开数据集中要么只有用户点击过哪些新闻的数据,要么只有具体新闻的文本内容,行为和文本中,总有一部分是缺失的。”其二是数据的标注, “主观的内容需要找人评判,如果随便找学生标一标,其实并不客观。”
来到 MSRA 后,敖翔惊喜地发现,这两个难题都迎刃而解——微软的新闻数据集兼有文本和行为两部分的数据,让这项研究不再是做“无米之炊”;而 MSRA 通过专有渠道联系到的数据公司,也能邀请到大量英语母语使用者(native speaker)来完成人工数据标注的工作。“这种工作的人力物力成本非常高昂,在高校研究所很难实现。”微软有非常专业的支持体系,研究员只需要做好自己擅长的研究部分即可,而研究所则需要研究员个人从头做起。
敖翔在线做 Final Talk
从最开始的问题定义到最终的论文提交,敖翔的“星搭档”、微软亚洲研究院主管研究员王希廷和首席研究员谢幸提供了许多指导与帮助。谢幸的指点更多从宏观上着手,常常给敖翔醍醐灌顶的感觉。研究过程中,敖翔常常问自己:“这个工作和以往做标题生成的工作最大的不同在哪里?”一次讨论中,谢幸一语道破:“我们这个工作其实是从读者的角度在考虑标题生成,而以往的工作更多是从作者角度考虑”,敖翔深受启发,并以“用户偏好”作为研究视角。
“希廷则更多扮演一个怼我的角色,”敖翔笑着说,“做研究常常容易陷在里面,认为自己设计得非常好。希廷经常会 challenge 我,在细节上我们讨论得非常多,这可以让我时刻保持清醒。”在王希廷眼中,敖翔有很强的应用性科研能力,他在数据收集、模型设计、实验验证等过程中都展现了将研究真正落地的强烈目标感。“我们在这个过程中相互学习、一起进步,”王希廷说。
研究工作产生的论文,已瞄准领域内最顶级的会议 WWW 或 ACL。对于这项技术,敖翔希望未来既能从应用角度进一步改进,比如落地到政治新闻、体育新闻等不同的新闻类型,使之更符合实际的应用场景;也希望能在方法层面不断完善,把技术方案做得更简洁、更高级、更优美。
敖翔将在 MSRA 访问的经历比作一场“学术的盛宴”,他用“乐不思蜀”来形容自己。在访问期间,敖翔正好赶上 CIKM 和 ICDM 在北京开会,他作为 MSRA 的访问学者和计算所科研人员的双重身份参会。在谢幸老师的带领下,他得以与国际顶级学者交流,“谢老师在跟领域内资深大佬进行交谈的时候,也会向他们介绍我是谁、在做什么研究。”
敖翔在Final Talk中致谢研究组
这段合作也让他对未来的研究方向有了新的规划。此前,自认为“应用驱动型”的敖翔做过金融文本、行为分析等许多方向的研究,而与谢幸、王希廷的合作让他决心在未来的研究中坚持主线,深耕用户建模和文本的交叉研究,和 MSRA 团队一起开展前沿领域的创新性研究。
胡琳梅:边“铸星”边“追星”
胡琳梅来自北京邮电大学计算机学院,她用“梦寐以求”来形容在 MSRA 的时光。了解到铸星计划录取的都是“在各个领域已经小有名气的老师”,她坦言自己“一开始确实不敢想”会被录取。尽管一开始信心不足,胡琳梅还是投递了申请,因为她相信“铸星计划”的初衷与自己作为一名青年教师期待成长、进步的初心是相同的。她希望提高自己的水平,从而能够给学生以更好的指导,“让他们也获得科研上的成就感”。
优秀的学术潜力和科研表现让胡琳梅获得了来到 MSRA 自然语言计算组访问的机会,在这里开启了“虚假新闻检测”的研究。“虚假新闻检测”是自然语言处理领域的经典主题,也是近期的研究热点。在胡琳梅来之前,自然语言计算组已经有文本信息可信度分析(事实检测)的研究基础,因此最初确定模型时,她想沿用之前的研究思路。但胡琳梅的“星搭档”高级研究员段楠和主管研究员唐都钰希望她能发挥出自己的独特优势和潜力。三个月时间里,两位老师不仅详细地与胡琳梅分享自己的思路想法,也带领胡琳梅实时跟进领域内的最新进展。
“我以前只关注已发表的会议论文,但段老师、唐老师会带着我每天上 arXiv 看最新论文。”arXiv 上的最新研究给胡琳梅带来了很大启发,也直接促使她产生了论文的核心想法。
除了一起解决“写什么”的问题之外,合作研究员也帮助胡琳梅解决“怎么写”的问题——合理规划进度安排,包括什么时间点要出 proposal、什么时间点要有初步实验结果、什么时间点要出初稿等等,让她觉得“被安排得明明白白”。
“愉快又紧张”,胡琳梅这样描述自己的访问,“感觉在这里做研究出成果特别快。”唐都钰也评价她“很谦虚也很善于合作,很有活力也很有正能量,在研究上主动寻求合作、突破自己研究的边界”。这段融洽的合作产生了丰富的成果,不到三个月,团队就做出了一篇论文,提出的方法融合了知识图谱、话题知识,将虚假新闻检测的准确率提升了 2 到 3 个百分点。
胡琳梅做Final Talk
对于胡琳梅来说,这段铸星之旅也是一段“追星”之旅。来到 MSRA 之前,周明、谢幸等领域内“大牛”的名字对胡琳梅而言“相当遥远”,而现在,有过具体合作之后,这些名字变得格外亲切温暖。“我刚来 MSRA 的时候正好有两篇论文要投到 ACL,就拉着谢老师、段楠老师和周明老师帮我一起改,他们非常乐意帮助我。”胡琳梅还记得,自己做完研究成果展示汇报后,和周明老师合影留念,周老师还笑着对她说,“欢迎推荐学生到组里来实习”。目前,其中一篇论文已被 ACL 2020 接收。
胡琳梅(左三)与段楠(左一)、唐都钰(右二)及合作实习生合影
未来,除了虚假新闻检测之外,胡琳梅还打算在同一方向上继续深挖,从事多模态图像等相关研究。“既然已经在 MSRA 对整个领域做了调研,那就不能浪费了。”她也期待着和 MSRA 的更多合作可能。
黄宏:携手“双星搭档”铸就崭新成果
黄宏来自华中科技大学计算机科学与技术学院,由于研究方向“有点太偏理论”,实验室里和她从事同一研究方向的人并不多,因此 MSRA 多元化的研究氛围对她格外有吸引力。另一方面,一直抱着“将研究直接转化为效能”的愿景的黄宏,也对 MSRA 重视产学结合的科研传统十分向往。
她在 2018 年就已经入选铸星计划,因为学校里还有各项事务需要处理,她将访问推迟到 2019 年。这场“迟到”也使黄宏成为了铸星计划中至今唯一一位拥有两位不同研究方向“星搭档”的访问学者,有幸与微软亚洲研究院主管研究员苗又山和首席研究员谢幸进行合作。
“我觉得我赚大了”,黄宏说,这两位老师恰好起到了“互补”的作用——她的具体研究方向和谢幸更接近,所以谢幸会从大方向、高视角上给她提出研究建议,帮她把整个研究思路理顺,并突出研究问题的核心价值所在,在她投递论文的过程中,更是对文章整体思路进行了把控;而偏重于“做系统”的苗老师则更加关注细节,比如具体的方法是否可行、应当往哪个方向优化。
黄宏老师在做Final Talk 01
黄宏老师在做Final Talk 02
在 MSRA 的三个月里,黄宏进行了三项主要研究工作,在领域内均处于相当前沿的地位。黄宏介绍说,解决图的表示问题,才能以更好的性能处理后续任务,为此,她的团队从两个方面展开了努力:一是对于目前备受关注的浅层网络,他们提出利用全新的中观视角寻求解决方案,实验结果表明这一思路非常切实可行;二是从深度视角展开(类似于图神经网络)研究,探索如何去挖出更多信息,进行更有效的提升。在此基础上,她计划将图神经网络作为下一项研究主题,这项工作的“复杂度非常高”,需要 MSRA 强大的的计算资源和数据集支持。
“黄宏老师的算法基础非常强,之前在这个领域已经做了不少优秀的工作,但对工业界的实践相对陌生。”谢幸老师表示,黄宏在这次访问中对算法在工业界的应用、大规模图数据处理系统都有了更深刻的理解,“我相信这能够帮助她未来做出更加出色的成果。”
黄宏老师在做Final Talk 03
“在这边,我的核心任务就是做研究,”黄宏觉得,在 MSRA 的三个月里,无论是专心致志地看 paper,还是跟周围的研究员展开头脑风暴、一起讨论问题,都特别能激发她的科研想法。她说:“我在这边能有比较连续、完整的时间去思考,而这很关键。”黄宏认为,研究其实是一个不断深入的过程,只有在不受外界干扰的情况下才能长时间集中注意力、在同一方向上持续推进,而MSRA轻松自由的科研环境为此提供了必要的保障。
黄宏(中)与谢幸(左一)、石贝贝(左二)、苗又山(右一)合影
在 MSRA 的三个月是黄宏实现研究方向转型的契机。“以前我独立做研究的时间不是特别多,因为我是 17 年才开始当老师,”黄宏笑着说,有些时候心态还没有转变过来,所以她希望能从 MSRA 的研究员身上去学习如何沟通、如何前进,“相当于是以他们为榜样,朝着一个确定的方向走”。尽管她自认为是一个“比较内向的人”,但她觉得自己跟 MSRA 研究员们的熟悉程度就像是一个“指数曲线”一样,越到后面的交流越深入,关系越亲密。
谢幸也非常期待和黄宏的后续合作:“黄宏老师在图表示学习和图神经网络领域的研究和我们目前的研究非常契合,我相信我们未来可以长期合作,在图神经网络与推荐系统结合的方向做出更多成果。”