文档智能多模态预训练模型LayoutLMv3:兼具通用性与优越性

编者按:企业数字化转型中,以文档、图像等多模态形式为载体的结构化分析和内容提取是其中的关键一环,快速、自动、精准地处理包括合同、票据、报告等信息,对提升现代企业生产效率至关重要。因此,文档智能技术应运而生。过去几年,微软亚洲研究院推出了通用文档理解预训练 LayoutLM 系列研究成果,并不断优化模型对文档中文本、布局和视觉信息的预训练性能。近期发表的最新的 LayoutLM 3.0 版本,在以文本和图像为中心的任务上有了更加出色的表现,让文档理解模型向跨模态对齐迈出一大步!

发布时间:2022-07-26 类型:深度文章

无限视觉生成模型NUWA-Infinity让视觉艺术创作自由延伸

编者按:此前,微软亚洲研究院提出了多模态模型 NUWA,它可以基于给定的文本、视觉或多模态输入生成图像或视频,并支持多种视觉艺术作品创建任务,包括文本到图像或视频的生成、图像补全、视频预测等。近日,微软亚洲研究院公开发表了新的研究成果:NUWA 的升级版——无限视觉生成模型 NUWA-Infinity,让视觉艺术创作趋于“无限流”,可生成任意大小的高分辨率图像或长时间视频。一起来感受一下 AI 的无限创作力吧!

发布时间:2022-07-22 类型:深度文章

ACL 2022 | NLP领域最新热门研究,你一定不能错过!

编者按:作为自然语言处理领域的国际顶级学术会议,ACL 每年都吸引了大量学者投稿和参会,今年的 ACL 大会将于5月22日至5月27日举办。值得注意的是,这也是 ACL 大会采用 ACL Rolling Review 机制后的首次尝试。在此次会议中,微软亚洲研究院有多篇论文入选,本文精选了其中的6篇进行简要介绍,论文主题涵盖了:编码器解码器框架、自然语言生成、知识神经元、抽取式文本摘要、预训练语言模型、零样本神经机器翻译等。欢迎感兴趣的读者阅读论文原文。

发布时间:2022-05-19 类型:深度文章

微软亚洲研究院多模态模型NÜWA:以自然语言创造视觉内容

编者按:此前我们曾提出了一个问题:从文字脚本生成创意视频一共分几步?微软亚洲研究院的开放领域视频生成预训练模型给出了答案:只需一步。现在,我们追问:除了文字生成视频之外,还有哪些途径可以生成视频?我们能否使用自然语言对视觉内容进行编辑?微软亚洲研究院最新推出的多模态模型 NÜWA,不仅让视觉内容创造多了一条路,甚至还让 Windows 经典桌面有了更多的打开方式。

发布时间:2022-03-03 类型:深度文章

通用模型、全新框架,WavLM语音预训练模型全解

编者按:深度神经网络模型近年来虽然在各项语音任务上都有所进展,但却仍依赖于大量的标注数据。而自监督训练方法的出现和发展则在一定意义上缓解了该问题。近日,微软亚洲研究院与微软 Azure 语音组的研究员们在判别式自监督预训练方法的基础上,沿用研究院自然语言计算组在自然语言预训练的 Transformer 模型架构,提出了全新的 Denoising Masked Speech Modeling 框架。通过94,000小时的英语语音进行预训练,通用语音预训练模型 WavLM 在 SUPERB 所有13项语音任务测评中超过先前所有模型,排名第一,并在其它4个不同的语音经典测评数据集上都取得了很好效果。

发布时间:2021-12-23 类型:深度文章

WMT 2021冠军来了!重建巴别塔之多语言翻译模型

编者按:近日,国际计算语言学协会 ACL 举办的 WMT 2021 国际机器翻译比赛的评测结果揭晓。由微软亚洲研究院、微软翻译产品团队及微软图灵团队联合发布的 Microsoft ZCode-DeltaLM 模型获得了 WMT 2021 “大规模多语言翻译”赛道的冠军。该模型基于微软亚洲研究院机器翻译研究团队打造的能支持上百种语言的多语言预训练模型 DeltaLM,在微软 ZCode 的多任务学习框架下进行训练生成。研究员们希望能够借助该多语言翻译模型,有效支持更多低资源和零资源的语言翻译,终有一日实现重建巴别塔的愿景。

发布时间:2021-12-22 类型:深度文章

智能文档新成员:动态文档智能模型MarkupLM

编者按:自2019年以来,微软亚洲研究院在“智能文档”领域进行了诸多探索,提出了通用文档理解预训练模型 LayoutLM,以及多语言通用文档理解预训练模型 LayoutXLM。然而,除了诸多视觉效果固定不变的文档外,现实中还存在大量实时渲染的动态视觉富文本文档,直接套用过去如 LayoutLM 系列模型中采用的基于二维空间坐标的布局编码对动态文档进行建模是不现实的。为此,微软亚洲研究院的研究员们开发了一种全新模型 MarkupLM,可直接对动态文档的标记语言源代码进行处理,不需要任何额外的计算资源即可渲染生成动态文档的实际视觉效果。实验结果表明,MarkupLM 显著优于过去基于网页布局的方法,且具有高实用性。

发布时间:2021-11-25 类型:深度文章

EMNLP 2021 | 微软亚洲研究院NLP领域最新研究一览

编者按:EMNLP(Conference on Empirical Methods in Natural Language Processing)是计算语言学和自然语言处理领域的顶级国际学术会议。今年的 EMNLP 大会于11月7日-11日正式在线上召开。在本届大会中,微软亚洲研究院有多篇论文入选,今天我们精选了其中的6篇来为大家进行简要介绍。欢迎感兴趣的读者阅读论文原文,一起了解自然语言处理领域的前沿进展!

发布时间:2021-11-09 类型:深度文章

EMNLP 2021 | LayoutReader:基于ReadingBank的阅读序列抽取模型

阅读序列抽取是文档智能分析中一项非常重要的任务,其旨在通过抽取扫描文档或数字商业文档中的单词并重新进行排序,将原本独立的单词组合成读者可以理解的文本。但由于日常工作生活中使用的文档,往往模板和格式各不相同,所以在出现复杂格式时,按照传统方法进行排列往往无法取得较好的效果。因此,微软亚洲研究院自然语言计算组的研究员们构建了首个大规模阅读序列数据集 ReadingBank,并基于 ReadingBank 提出了阅读序列抽取模型 LayoutReader。本文将对 ReadingBank 和 LayoutReader 的实现原理进行简要介绍,欢迎感兴趣的读者点击阅读原文了解论文中的更多详情,本文已被 EMNLP 2021 作为长文录取。

发布时间:2021-11-04 类型:深度文章

精心设计的 GNN 只是“计数器”?

问答(QA)任务是自然语言理解领域中一个基本且重要的课题,目前通常会使用预训练语言模型以及图神经网络等方法对问答进行推理。GNN 模块在推理中到底发挥了什么作用?这个问题需要科研人员做进一步深入探究。为此,微软亚洲研究院和佐治亚理工的研究员们剖析了最前沿的相关方法,并且发现一种极其简单、高效的图神经计数器就能在主流的知识问答数据集中取得更好的效果。

发布时间:2021-10-29 类型:深度文章