编者按:最近,大型语言模型展现出的强大能力引发了新一轮的 AIGC (人工智能生成内容)研究和应用热潮。人工智能的创作能力边界已经从文字问答、编程逐渐扩展到了绘画、音频等多模态领域。但在视频领域,尤其是超长视频内容的生成上,目前大多数模型的效果还不尽如人意。
发布时间:2023-04-06 类型:深度文章
编者按:最近,大型语言模型展现出的强大能力引发了新一轮的 AIGC (人工智能生成内容)研究和应用热潮。人工智能的创作能力边界已经从文字问答、编程逐渐扩展到了绘画、音频等多模态领域。但在视频领域,尤其是超长视频内容的生成上,目前大多数模型的效果还不尽如人意。
发布时间:2023-04-06 类型:深度文章
编者按:自2019年以来,微软亚洲研究院在文档智能领域进行了诸多探索,开发出一系列多模态任务的文档基础模型 (Document Foundation Model),包括 LayoutLM (v1、v2、v3) 、LayoutXLM、MarkupLM 等。这些模型在诸如表单、收据、发票、报告等视觉富文本文档数据集上都取得了优异的表现,获得了学术界和产业界的广泛认可,并已应用在包括 Azure Form Recognizer、AI Builder、Microsoft Syntex 等在内的微软产品中,赋能企业和机构的数字化转型。
发布时间:2022-10-26 类型:深度文章
通用多模态基础模型BEiT-3:引领文本、图像、多模态预训练迈向“大一统”
编者按:近年来,基础模型(foundation models,也被称为预训练模型)的研究从技术层面逐渐趋向于大一统(the big convergence),不同人工智能领域(例如自然语言处理、计算机视觉、语音处理、多模态等)的基础模型从技术上都依赖三个方面:一是 Transformers 成为不同领域和问题的通用神经网络架构和建模方式,二是生成式预训练(generative pre-training)成为最重要的自监督学习方法和训练目标,三是数据和模型参数的规模化(scaling up)进一步释放基础模型的潜力。
发布时间:2022-08-30 类型:深度文章
文档智能多模态预训练模型LayoutLMv3:兼具通用性与优越性
编者按:企业数字化转型中,以文档、图像等多模态形式为载体的结构化分析和内容提取是其中的关键一环,快速、自动、精准地处理包括合同、票据、报告等信息,对提升现代企业生产效率至关重要。因此,文档智能技术应运而生。过去几年,微软亚洲研究院推出了通用文档理解预训练 LayoutLM 系列研究成果,并不断优化模型对文档中文本、布局和视觉信息的预训练性能。近期发表的最新的 LayoutLM 3.0 版本,在以文本和图像为中心的任务上有了更加出色的表现,让文档理解模型向跨模态对齐迈出一大步!
发布时间:2022-07-26 类型:深度文章
无限视觉生成模型NUWA-Infinity让视觉艺术创作自由延伸
编者按:此前,微软亚洲研究院提出了多模态模型 NUWA,它可以基于给定的文本、视觉或多模态输入生成图像或视频,并支持多种视觉艺术作品创建任务,包括文本到图像或视频的生成、图像补全、视频预测等。近日,微软亚洲研究院公开发表了新的研究成果:NUWA 的升级版——无限视觉生成模型 NUWA-Infinity,让视觉艺术创作趋于“无限流”,可生成任意大小的高分辨率图像或长时间视频。一起来感受一下 AI 的无限创作力吧!
发布时间:2022-07-22 类型:深度文章
编者按:此前我们曾提出了一个问题:从文字脚本生成创意视频一共分几步?微软亚洲研究院的开放领域视频生成预训练模型给出了答案:只需一步。现在,我们追问:除了文字生成视频之外,还有哪些途径可以生成视频?我们能否使用自然语言对视觉内容进行编辑?微软亚洲研究院最新推出的多模态模型 NÜWA,不仅让视觉内容创造多了一条路,甚至还让 Windows 经典桌面有了更多的打开方式。
发布时间:2022-03-03 类型:深度文章