新闻中心

排序方式

新一代多模态文档理解预训练模型LayoutLM 2.0,多项任务取得新突破!

近年来,预训练模型是深度学习领域中被广泛应用的一项技术,对于自然语言处理和计算机视觉等领域的发展影响深远。2020年初,微软亚洲研究院的研究人员提出并开源了通用文档理解预训练模型 LayoutLM 1.0,受到了广泛关注和认可。如今,研究人员又提出了新一代的文档理解预训练模型 LayoutLM 2.0,该模型在一系列文档理解任务中都表现出色,并在多项任务中取得了新的突破,登顶 SROIE 和 DocVQA 两项文档理解任务的排行榜(Leaderboard)。未来,以多模态预训练为代表的智能文档理解技术将在更多的实际应用场景中扮演更为重要的角色。

发布时间:2021-01-13 类型:深度文章

GLGE:业界首个通用语言生成评估基准

最近,除了针对自然语言理解(NLU)任务设计的预训练语言模型,许多针对自然语言生成(NLG)任务而设计的预训练语言模型也被不断提出。然而,这些模型往往通过不同的任务、数据集、和评测指标进行评估,目前还没有一个统一的通用评测基准。为了填补 NLG 通用评测基准这一空缺,微软亚洲研究院提出了业内首个通用的语言生成评测基准 GLGE (General Language Generation Evaluation benchmark)。GLGE 提供了三种不同难度的的评测基准,以方便研究者们更全面或更有选择性地对模型进行评估。

发布时间:2021-01-06 类型:深度文章

EMNLP 2020 | 微软亚洲研究院精选论文解读

EMNLP 是自然语言处理领域的顶级会议之一,2020年的 EMNLP 会议将于11月16日至20日召开。微软亚洲研究院精选了5篇录取的论文为大家进行介绍。

发布时间:2020-11-13 类型:深度文章

EMNLP 2020 | 忒修斯之船启发下的知识蒸馏新思路

深度学习的发展推动了很多大型神经网络模型的诞生,这些模型在多个领域中都取得了当前最优的性能,基于 Transformer 的预训练模型也在自然语言理解(NLU)和自然语言生成(NLG)领域中成为主流。然而,这些模型所包含的参数量巨大,计算成本高昂,极大地阻碍了此类模型在生产环境中的应用。为了解决该问题,来自微软亚洲研究院自然语言计算组的研究员们提出了一种模型压缩的新思路。

发布时间:2020-11-10 类型:深度文章

微软多语言预训练模型T-ULRv2登顶XTREME排行榜

为进一步实现用 AI 赋能用户体验,微软正在不断拓展多语言模型的边界。近日,由微软图灵团队与微软亚洲研究院联合探索的最新跨语言研究成果——多语言预训练模型 T-ULRv2,登顶 XTREME 排行榜,T-ULRv2 可以在相同向量空间表示和理解94种语言,提升所有语言的产品体验。

发布时间:2020-11-04 类型:深度文章

代码智能新基准数据集CodeXGLUE来袭,多角度衡量模型优劣

代码智能(code intelligence)目的是让计算机具备理解和生成代码的能力,并利用编程语言知识和上下文进行推理,支持代码检索、补全、翻译、纠错、问答等场景。以深度学习为代表的人工智能算法,近年来在理解自然语言上取得了飞跃式的突破,代码智能也因此获得了越来越多的关注。该领域一旦有突破,将大幅度推动 AI 在软件开发场景的落地。

发布时间:2020-09-29 类型:深度文章

周明:预训练模型在多语言、多模态任务的进展

8月29日至30日,由中国科学技术协会、中国科学院、南京市人民政府为指导单位,中国人工智能学会、南京市建邺区人民政府、江苏省科学技术协会主办的主题为“智周万物”的2020年中国人工智能大会(CCAI 2020)在江苏南京新加坡·南京生态科技岛举办。在大会上,微软亚洲研究院副院长、国际计算语言学会(ACL)前任主席周明做了主题为《预训练模型在多语言、多模态任务的进展》的特邀报告。在大会上,微软亚洲研究院副院长、国际计算语言学会(ACL)前任主席、中国计算机学会副理事长周明做了主题为《预训练模型在多语言、多模态任务的进展》的特邀报告。

发布时间:2020-09-10 类型:深度文章

文档智能:通用文档预训练模型与数据集,推动NLP落地升级

随着数字化进程的加快,文档、图像等载体的结构化分析和内容提取成为关乎企业数字化转型成败的关键一环,自动、精准、快速的信息处理对于生产力的提升至关重要。以商业文档为例,不仅包含了公司内外部事务的处理细节和知识沉淀,还有大量行业相关的实体和数字信息。人工提取这些信息既耗时费力且精度低,而且可复用性也不高,因此,文档智能技术(Document Intelligence)应运而生。

发布时间:2020-08-19 类型:深度文章

IJCAI 2020 | 我们离有效的上下文建模还有多远?

一直以来,更好的上下文理解能力都是对话式语义解析模型追求的目标,学术界近几年也涌现了许多面向该场景的上下文建模方法。目前尚无研究对这些方法进行全面比较和深入分析,受此启发,微软亚洲研究院的科研人员在 IJCAI 2020 的论文中,全面评估了各种上下文建模方法的性能,并对不同方法在细粒度上下文现象的优势与困境做了深入分析。研究表明,目前的上下文建模方法仍不够成熟,在一些特定的上下文现象上表现不理想,因此未来该领域的研究任重而道远。

发布时间:2020-08-14 类型:深度文章

ACL 2020 | 微软亚洲研究院精选论文带你一览NLP前沿!

编者按:自然语言处理顶会 ACL 2020 将于7月5日-10日在线举行。本届大会中,微软亚洲研究院共有22篇论文被录取,内容涵盖机器翻译、文本生成、机器阅读理解、事实检测、人机对话等领域。本文精选了6篇有代表性的论文为大家介绍。

发布时间:2020-07-01 类型:深度文章