EMNLP 2021 | LayoutReader:基于ReadingBank的阅读序列抽取模型

阅读序列抽取是文档智能分析中一项非常重要的任务,其旨在通过抽取扫描文档或数字商业文档中的单词并重新进行排序,将原本独立的单词组合成读者可以理解的文本。但由于日常工作生活中使用的文档,往往模板和格式各不相同,所以在出现复杂格式时,按照传统方法进行排列往往无法取得较好的效果。因此,微软亚洲研究院自然语言计算组的研究员们构建了首个大规模阅读序列数据集 ReadingBank,并基于 ReadingBank 提出了阅读序列抽取模型 LayoutReader。本文将对 ReadingBank 和 LayoutReader 的实现原理进行简要介绍,欢迎感兴趣的读者点击阅读原文了解论文中的更多详情,本文已被 EMNLP 2021 作为长文录取。

发布时间:2021-11-04 类型:深度文章

精心设计的 GNN 只是“计数器”?

问答(QA)任务是自然语言理解领域中一个基本且重要的课题,目前通常会使用预训练语言模型以及图神经网络等方法对问答进行推理。GNN 模块在推理中到底发挥了什么作用?这个问题需要科研人员做进一步深入探究。为此,微软亚洲研究院和佐治亚理工的研究员们剖析了最前沿的相关方法,并且发现一种极其简单、高效的图神经计数器就能在主流的知识问答数据集中取得更好的效果。

发布时间:2021-10-29 类型:深度文章

微软翻译又添新语言 —— 文言文

每当面对美好的时节、迷人的风景、优美的事物时,或许你也禁不住想借古抒怀,然而却发现自己的古文词库有些匮乏。尽管上学时大家都曾学习过文言文,但古文的晦涩难懂,让每一词每一句都在挑战记忆力极限。不过,最近微软亚洲研究院的研究员们将 AI 技术应用在文言文/古文与现代汉语之间的双向互译,并已集成于微软 Azure 认知服务以及多个微软产品中,用户可以一键将文言文翻译成现代汉语,以及微软翻译服务支持的其他90多种语言和方言。

发布时间:2021-08-26 类型:深度文章

ACL 2021 | PENS: 个性化新闻标题生成数据集

为了开展新闻标题生成任务的研究,微软亚洲研究院的研究员们构建了第一个可以离线评测个性化新闻标题生成方法的基准数据集:PENS(PErsonalized News headlineS)数据集;同时还提出了一种个性化新闻标题生成的通用框架,并且对其进行了效果评估。该论文 “PENS: A Dataset and Generic Framework for Personalized News Headline Generation” 已被 ACL 2021 收录。

发布时间:2021-08-04 类型:深度文章

ACL 2021 | 今年NLP的这些论文,你不能错过!

自然语言处理领域的国际顶级学术会议ACL 2021于8月1日-6日在线举办。本届大会共计接收论文3350篇,其中21.3%的论文录用到了主会中,14.9%的论文录用在了Findings子刊中,其综合录用率达36.2%。在此次会议中,微软亚洲研究院也有多篇论文入选,本文精选了其中的6篇进行介绍,论文主题涵盖:跨语言命名实体识别、代码搜索、音乐生成、Hi-Transformer、预训练模型、语义交互等。欢迎感兴趣的读者阅读论文原文,希望对你的研究痛点有所启发和帮助!

发布时间:2021-08-03 类型:深度文章

ACL 2021 | 时空可控的图片描述生成

一直以来,图片描述生成任务都是人工智能领域研究人员们关注的热点话题。近期学术界提出的 Localized-Narratives 数据集,为图片描述生成的可控性和可解释性研究提供了新的机会。基于此,微软亚洲研究院的研究员们展开了深入研究,致力于对图像描述生成任务中所涉及的语义概念进行空间和时序关系上的控制,以提高其表现性能。同时,研究员们还提出了一种新模型 LoopCAG,并通过一系列实验证明了其在多个层面的可控性优势。针对视觉信号和语言信号的对应关系这一研究热点,研究员们从图片描述生成的可控性角度给出了解答,但想要深度理解和研究这一问题还有很长的路要走。希望感兴趣的读者可以阅读论文全文,并发表自己的独特观点,和研究员们一起交流学术感想!

发布时间:2021-07-29 类型:深度文章

ACL 2021 | 难度预测和采样平滑,提高ELECTRA模型的表现!

在 ELECTRA 模型的预训练过程中,生成器无法直接得到判别器的信息反馈,导致生成器的采样过程不够有效。而且,随着生成器的预测准确率不断提高,生成器会过采样那些正确的词作为替换词,从而使判别器的学习低效。为此,微软亚洲研究院提出了两种方法:难度预测和采样平滑,通过提高生成器的采样效率来提升模型的表现。相关研究论文 “Learning to Sample Replacements for ELECTRA Pre-Training” 已被 Findings of ACL 2021 收录。

发布时间:2021-07-28 类型:深度文章

微软多语言预训练模型T-ULRv2登顶XTREME排行榜

为进一步实现用 AI 赋能用户体验,微软正在不断拓展多语言模型的边界。近日,由微软图灵团队与微软亚洲研究院联合探索的最新跨语言研究成果——多语言预训练模型 T-ULRv2,登顶 XTREME 排行榜,T-ULRv2 可以在相同向量空间表示和理解94种语言,提升所有语言的产品体验。

发布时间:2020-11-04 类型:深度文章

代码智能新基准数据集CodeXGLUE来袭,多角度衡量模型优劣

代码智能(code intelligence)目的是让计算机具备理解和生成代码的能力,并利用编程语言知识和上下文进行推理,支持代码检索、补全、翻译、纠错、问答等场景。以深度学习为代表的人工智能算法,近年来在理解自然语言上取得了飞跃式的突破,代码智能也因此获得了越来越多的关注。该领域一旦有突破,将大幅度推动 AI 在软件开发场景的落地。

发布时间:2020-09-29 类型:深度文章

微软机器阅读理解系统性能升级,刷新CoQA对话式问答挑战赛纪录

近日,由微软亚洲研究院自然语言处理组与微软雷德蒙语音对话组研究员组成的团队,在斯坦福大学发起的对话式问答挑战赛CoQA(Conversational Question Answering Challenge)中荣登榜首,成为目前排行榜上唯一一个模型分数超过人类分数的团队。

发布时间:2019-05-06 类型:深度文章