新闻中心

排序方式

微软亚洲研究院提出多语言通用文档理解预训练模型LayoutXLM

最近一段时间,基于文本、布局和图像的多模态预训练模型在视觉丰富的文档理解任务中取得了优异的性能,展现了不同模态之间联合学习的巨大潜力。继此前发布的通用文档理解预训练模型 LayoutLM 之后,微软亚洲研究院的研究员们进一步提出了一种基于多语言通用文档理解的多模态预训练模型 LayoutXLM,希望为丰富的视觉文档理解任务消除因不同语言所带来的障碍。同时,为了更精准地评估多语言文档理解预训练模型的性能,研究员们还引入了多语言表单理解基准数据集 XFUN。该数据集包含7种主流语言的表单理解标注样本:中文、日文、西班牙文、法文、意大利文、德文、葡萄牙文。

发布时间:2021-06-01 类型:深度文章

微软亚洲研究院最新研究成果:文字生成视频,只需一步

随着网络性能的不断提升,视频已经成为越来越多人获取信息、娱乐休闲的主要方式,与此同时也涌现出了不少视频的创作人员,他们将喜欢的人、事、物,以具有创意的视频形式呈现出来,这让和小编一样毫无视频创作细胞的小白羡慕不已。不过,这样的能力你很快就可以借助技术实现了,微软亚洲研究院提出的开放领域视频生成预训练模型 GODIVA,基于 3D 注意力机制,克服了视频帧连续性建模的挑战,可秒级实现基于文字脚本生成视频。

发布时间:2021-05-07 类型:深度文章

“进化”的搜索方式:揭秘微软语义搜索背后的技术

作为一项云搜索服务,Azure 认知搜索集成了强大的 API 和工具,帮助开发人员构建丰富的搜索体验。不止于现状,微软的研究员们为 Azure 认知搜索“加持”了语义搜索功能,可以让搜索引擎拥有语义排序、语义摘要、语义高亮、语义问答以及自动拼写校正等能力。本文将揭晓这些神奇功能背后的核心技术,涉及关键词包括预训练、图网络、多任务等。本文编译自微软研究院博客“The science behind semantic search: How AI from Bing is powering Azure Cognitive Search”。

发布时间:2021-03-26 类型:深度文章

微软AI系统刷新美国司法学院入学考试逻辑推理纪录

近日,微软亚洲研究院自然语言计算组提出的新方法,刷新了关注美国司法学院入学考试(LSAT)逻辑推理部分的数据集 ReClor 的纪录,并且超过了人类的准确率(注:人类准确率指的是 ReClor 论文中给出的10名大学生的平均得分)。今天让我们来看看研究团队在机器逻辑推理研究中有哪些新的尝试,又有一些怎样的发现与进展。

发布时间:2021-03-16 类型:深度文章

自回归与非自回归模型不可兼得?预训练模型BANG全都要!

近两年,预训练技术的发展极大地提高了自然语言生成的效果,但随着数据量和模型大小的增加,模型在使用时的推断耗时也随之变大。为了降低自回归生成的时延,并行预测目标语句所有单词的非自回归模型被提出。然而,非自回归和半非自回归的依赖关系学习和生成难度较大,它们的生成质量往往弱于自回归模型。针对上述问题,微软亚洲研究院的研究员们提出了新的自然语言生成预训练 BANG。

发布时间:2021-02-03 类型:深度文章

四两拨千斤,如何做到自然语言预训练加速十倍

随着自然语言处理中的预训练成为研究领域的热点,预训练的成本与计算代价也成为了大家在研究过程中必须考虑的现实问题。本文将会介绍多种在训练模型过程中提高效率,降低成本的方法,希望能对大家的研究有所帮助。

发布时间:2021-01-19 类型:深度文章

新一代多模态文档理解预训练模型LayoutLM 2.0,多项任务取得新突破!

近年来,预训练模型是深度学习领域中被广泛应用的一项技术,对于自然语言处理和计算机视觉等领域的发展影响深远。2020年初,微软亚洲研究院的研究人员提出并开源了通用文档理解预训练模型 LayoutLM 1.0,受到了广泛关注和认可。如今,研究人员又提出了新一代的文档理解预训练模型 LayoutLM 2.0,该模型在一系列文档理解任务中都表现出色,并在多项任务中取得了新的突破,登顶 SROIE 和 DocVQA 两项文档理解任务的排行榜(Leaderboard)。未来,以多模态预训练为代表的智能文档理解技术将在更多的实际应用场景中扮演更为重要的角色。

发布时间:2021-01-13 类型:深度文章

GLGE:业界首个通用语言生成评估基准

最近,除了针对自然语言理解(NLU)任务设计的预训练语言模型,许多针对自然语言生成(NLG)任务而设计的预训练语言模型也被不断提出。然而,这些模型往往通过不同的任务、数据集、和评测指标进行评估,目前还没有一个统一的通用评测基准。为了填补 NLG 通用评测基准这一空缺,微软亚洲研究院提出了业内首个通用的语言生成评测基准 GLGE (General Language Generation Evaluation benchmark)。GLGE 提供了三种不同难度的的评测基准,以方便研究者们更全面或更有选择性地对模型进行评估。

发布时间:2021-01-06 类型:深度文章

EMNLP 2020 | 微软亚洲研究院精选论文解读

EMNLP 是自然语言处理领域的顶级会议之一,2020年的 EMNLP 会议将于11月16日至20日召开。微软亚洲研究院精选了5篇录取的论文为大家进行介绍。

发布时间:2020-11-13 类型:深度文章

EMNLP 2020 | 忒修斯之船启发下的知识蒸馏新思路

深度学习的发展推动了很多大型神经网络模型的诞生,这些模型在多个领域中都取得了当前最优的性能,基于 Transformer 的预训练模型也在自然语言理解(NLU)和自然语言生成(NLG)领域中成为主流。然而,这些模型所包含的参数量巨大,计算成本高昂,极大地阻碍了此类模型在生产环境中的应用。为了解决该问题,来自微软亚洲研究院自然语言计算组的研究员们提出了一种模型压缩的新思路。

发布时间:2020-11-10 类型:深度文章