2023-04-06
编者按:最近,大型语言模型展现出的强大能力引发了新一轮的 AIGC (人工智能生成内容)研究和应用热潮。人工智能的创作能力边界已经从文字问答、编程逐渐…
2022-10-26
编者按:自2019年以来,微软亚洲研究院在文档智能领域进行了诸多探索,开发出一系列多模态任务的文档基础模型 (Document Foundation …
通用多模态基础模型BEiT-3:引领文本、图像、多模态预训练迈向“大一统”
2022-08-30
编者按:近年来,基础模型(foundation models,也被称为预训练模型)的研究从技术层面逐渐趋向于大一统(the big convergen…
文档智能多模态预训练模型LayoutLMv3:兼具通用性与优越性
2022-07-26
编者按:企业数字化转型中,以文档、图像等多模态形式为载体的结构化分析和内容提取是其中的关键一环,快速、自动、精准地处理包括合同、票据、报告等信息,对提…
无限视觉生成模型NUWA-Infinity让视觉艺术创作自由延伸
2022-07-22
编者按:此前,微软亚洲研究院提出了多模态模型 NUWA,它可以基于给定的文本、视觉或多模态输入生成图像或视频,并支持多种视觉艺术作品创建任务,包括文本…
2022-03-03
编者按:此前我们曾提出了一个问题:从文字脚本生成创意视频一共分几步?微软亚洲研究院的开放领域视频生成预训练模型给出了答案:只需一步。现在,我们追问:除…