实习派 | 胡明昊:在MSRA研究机器阅读理解是一种怎样的体验?

2019-01-22 | 作者:微软亚洲研究院

编者按:在 MSRA 实习的一年多时间里,这里开放、平等、自由的学术环境让他获益匪浅,他亦有机会在世界各地的顶会上展示他的工作成果。通过胡明昊的文字,让我们一起来看看他在MSRA的飞速成长。

作者 / 胡明昊

微软亚洲研究院自然语言计算组实习生

国防科技大学计算机学院博士生

很高兴与大家分享我的实习经历,和我最近在自然语言处理和机器阅读理解领域取得的一些进展。

在 EMNLP 2018 会议上展示海报

各路大神、计算资源与人文关怀

微软亚洲研究院成立于 1998 年,是微软在美国本土之外规模最大的研究院,也是微软在亚洲的第一个研究院,号称中国 IT 界“黄埔军校”。这里走出了无数传奇人物,比如首任院长李开复、百度总裁张亚勤、微软执行副总裁沈向洋、现任院长洪小文、阿里云之父王坚、今日头条副总裁马维英、商汤科技创始人汤晓鸥,以及若干神人如孙剑、贾佳亚、何恺明等等 [1]。

说到在微软亚洲研究院的实习经历,大家可以参考知乎提问“微软亚洲研究院 (MSRA) 的实习体验如何?” [2],上面汇集了各路大神们的心得体会、实习感受和趣闻轶事。

我也简单说说我自己的体验。我于 2017 年 7 月 13 日开始在 MSRA 的实习,指导老师为自然语言计算组的韦福如研究员 [3],主要研究问答系统和机器阅读理解。从入职的第一天起,感受最强烈的就是 MSRA 开放、平等、自由、舒适的学术和工作环境,在这里几乎没有上下级的观念,和老师之间更多是一种亦师亦友的关系,大家畅谈最新的学术界新闻,集思广益下一个研究点,讨论实验中遇到的问题等等,老师们还会手把手地传授、分享自己的知识和经验,避免学生们在研究上走弯路。组里的同学也个个身怀绝技,有摘要大神周青宇、知乎大 V 吴俣、问答大佬谭传奇和 R-Net 作者王文辉等,从和他们的日常聊天中可以学习到许多知识,遇到研究难题也可以和各位大佬讨论,获益匪浅。

与指导老师韦福如研究员(左)合影

在硬件环境上,微软亚洲研究院可以说是国内首屈一指的存在。在深度学习时代,GPU 已经成为制约研究人员大展身手的最重要因素之一。而在 MSRA,实习生们可以直接使用微软集团的 GPU 集群进行科研实验,而不必担心计算资源的不足。这样,我们可以在第一时间验证自己 idea 的可行性,也可以凭借海量资源来实验一些体量较大的模型。比如在自然语言处理 (NLP) 领域,最近 1 年掀起了一股类似于计算机视觉的“ImageNet”热潮,即在海量数据上预训练一个极深的模型,并在目标任务上进行微调,如 ELMo [4]、BERT [5] 等。而使用这些模型的一大前提便是需要大量的计算资源,依托于 MSRA,我们可以尽情地使用这些强大的模型,来获得顶尖的性能。

除了计算资源,微软亚洲研究院在其他方面也提供了满满的关怀。比如公司员工食堂提供了丰富多样的菜品,还有高大上的北京菜、粤菜、西餐等任君选择。在工作累了的间隙,还可以到每层楼的茶水间觅得品种多样且免费的元气小食、咖啡、水果、酸奶和快乐水等等,你在吃之前唯一需要在意的只是你的体重。当然,实习生们也可以在公司的健身房挥洒汗水,减脂增肌。另外,研究院有着丰富多彩的社团活动:除了每周约球的羽毛球社、篮球社,还可以跟着 MSRA 爬墙小分队去攀岩,更有历史悠久的桌游社以及新开辟的德州扑克事业部。除此之外,还有奶茶发车群,深夜拼车群,交友群等等……满足一切实习生活所需。

微软食堂的菜品

从 IJCAI、EMNLP 到 AAAI

在微软亚洲研究院实习的 1 年多时间里,我在机器阅读理解领域也取得了一些小小的进展,下面做个简要介绍。

针对机器阅读理解的强化助记阅读器

这是发表在 IJCAI 2018 上的一个工作,论文针对先前基于注意力机制的阅读理解模型进行了两点改进。首先,我们提出一个重关注 (reattention) 机制以基于历史注意力修正当前注意力的计算,其次我们提出动态-评估的强化学习方法来鼓励模型预测一个更可信的答案。在斯坦福问答数据集 (SQuAD) 和对抗 SQuAD 数据集上的实验显示,我们的模型取得了顶尖的结果。在 2018 年 7 月 13 日于瑞典斯德哥尔摩举办的 IJCAI 2018 大会上,我们在会场进行了现场报告。

强化助记阅读器总览

在 IJCAI 2018 大会上作现场报告

面向机器阅读理解的注意力-指导答案蒸馏

这是发表在 EMNLP 2018 上的一个工作,论文针对当前阅读理解任务中集成模型效率低、鲁棒性差的问题,提出使用知识蒸馏技术来将集成模型的知识迁移至单模型,同时不损失性能。在标准知识蒸馏的基础上,我们额外提出了答案蒸馏和注意力蒸馏两种方法。在 SQuAD 数据集上,蒸馏后单模型相比集成模型有了 12 倍加速,同时仅损失了 0.4% 的性能。而在对抗 SQuAD 和 NarrativeQA 数据集上,最好的单模型甚至超过了集成模型的性能。在 2018 年 10 月 31 日于比利时布鲁塞尔举办的 EMNLP 2018 会议上,我们进行了海报展示并介绍了这一工作。

我们提出的知识蒸馏方法总览

阅读+验证:面向无答案问题的机器阅读理解

这是发表在 AAAI 2019 上的一个工作,针对先前工作未能通过验证预测答案来判断问题是否可回答的问题,本论文提出了一个阅读+验证系统,不仅包含一个用于预测答案的阅读器,还包含一个检查答案正确性的验证器。我们引入了两个辅助损失以帮助阅读器更好地处理答案提取和无答案检测这两个任务,并探索了针对答案验证器的三种不同架构。在 SQuAD 2.0 数据集上我们的系统在提交时取得了优于之前所有方法的性能。

我们提出的阅读+验证系统

参考文献

[1] https://zhuanlan.zhihu.com/p/48505402

[2] https://www.zhihu.com/question/22081552

[3] http://mindio.org/

[4] https://arxiv.org/abs/1802.05365

[5] https://arxiv.org/abs/1810.04805

[6] https://www.ijcai.org/proceedings/2018/0570.pdf

[7] http://aclweb.org/anthology/D18-1232

[8] https://arxiv.org/abs/1808.05759