CVPR 2023 | 掩码图像建模MIM的理解、局限与扩展

编者按:掩码图像建模(Masked Image Modeling, MIM)的提出,为计算机视觉模型训练引入无监督学习做出了重要贡献。得益于 MIM 的预训练算法,计算机视觉领域在近年来持续输出着优质的研究成果。然而整个业界对 MIM 机制的研究仍存在不足。

发布时间:2023-06-20 类型:深度文章

微软3D生成扩散模型RODIN,秒级定制3D数字化身

编者按:近日,由微软亚洲研究院提出的 Roll-out Diffusion Network (RODIN) 模型,首次实现了利用生成扩散模型在 3D 训练数据上自动生成 3D 数字化身(Avatar)的功能。仅需一张图片甚至一句文字描述,RODIN 扩散模型就能秒级生成 3D 化身,让低成本定制 3D 头像成为可能,为 3D 内容创作领域打开了更多想象空间。相关论文“RODIN: A Generative Model for Sculpting 3D Digital Avatars Using Diffusion”已被 CVPR 2023 接收。

发布时间:2023-03-14 类型:深度文章

如何高效、精准地进行图片搜索?看看轻量化视觉预训练模型

编者按:你是否有过图像检索的烦恼?或是难以在海量化的图像中准确地找到所需图像,或是在基于文本的检索中得到差强人意的结果。对于这个难题,微软亚洲研究院和微软云计算与人工智能事业部的研究人员对轻量化视觉模型进行了深入研究,并提出了一系列视觉预训练模型的设计和压缩方法,实现了视觉 Transformer 的轻量化部署需求。目前该方法和模型已成功应用于微软必应搜索引擎,实现了百亿图片的精准、快速推理和检索。本文将深入讲解轻量化视觉预训练模型的发展、关键技术、应用和潜力,以及未来的机遇和挑战,希望大家可以更好地了解轻量化视觉预训练领域,共同推进相关技术的发展。

发布时间:2022-07-28 类型:深度文章

无限视觉生成模型NUWA-Infinity让视觉艺术创作自由延伸

编者按:此前,微软亚洲研究院提出了多模态模型 NUWA,它可以基于给定的文本、视觉或多模态输入生成图像或视频,并支持多种视觉艺术作品创建任务,包括文本到图像或视频的生成、图像补全、视频预测等。近日,微软亚洲研究院公开发表了新的研究成果:NUWA 的升级版——无限视觉生成模型 NUWA-Infinity,让视觉艺术创作趋于“无限流”,可生成任意大小的高分辨率图像或长时间视频。一起来感受一下 AI 的无限创作力吧!

发布时间:2022-07-22 类型:深度文章

渣画质视频秒变清晰,“达芬奇”工具集帮你自动搞定

编者按:是否时常“考古”一些老电影、老动漫来回忆旧日时光?你是否也有一些珍贵的录像,带你重温过去的美好?然而,我们已经习惯了高清体验,回头再看曾经的旧影像,画质或许“渣”的让人不忍直视。在这个多媒体内容爆发的时代,人们对视频内容的需求愈加强烈,视频素材的创作、增强及再创作技术也有了大幅提升。尽管利用现有的视频修复工具,视频编辑者也能让视频变得更高清,但其前提条件是需要有超高性能配置的电脑,并付出视频时长几倍甚至几十倍的时间成本,即便如此,结果可能仍不尽如人意。

发布时间:2022-06-23 类型:深度文章

CVPR 2022 | 一键解锁微软亚洲研究院计算机视觉领域前沿进展!

编者按:国际计算机视觉与模式识别会议(CVPR)是人工智能领域最具学术影响力的顶级会议之一。微软亚洲研究院也在4月成功举办了 CVPR 2022 论文分享会。今天,我们为大家精选了8篇微软亚洲研究院被 CVPR 2022 收录的优秀论文,带你探索计算机视觉领域的热点前沿!欢迎感兴趣的读者阅读论文原文。

发布时间:2022-06-22 类型:深度文章

Swin Transformer迎来30亿参数的v2.0,我们应该拥抱视觉大模型吗?

编者按:2021年,获得 ICCV 最佳论文奖的 Swin Transformer,通过在广泛的视觉问题上证明 Transformer 架构的有效性,加速了计算机视觉领域基本模型架构的变革。2021年末,微软亚洲研究院的研究员们又进一步提出了 Swin Transformer v2.0 版本,新版本训练了迄今为止最大的稠密视觉模型,并在多个主流视觉任务上大大刷新了记录,相关论文也已被 CVPR 2022 接收。研究员们希望借助 Swin Transformer v2.0 展现视觉大模型的“强悍”能力,呼吁整个领域加大对视觉大模型的投入,并为之提供相应的训练“配方”,从而为视觉领域的科研人员做进一步探索提供便利。那么,Swin Transformer v2.0 有哪些不同?今天就让我们来一探究竟吧!

发布时间:2022-03-17 类型:深度文章

微软亚洲研究院多模态模型NÜWA:以自然语言创造视觉内容

编者按:此前我们曾提出了一个问题:从文字脚本生成创意视频一共分几步?微软亚洲研究院的开放领域视频生成预训练模型给出了答案:只需一步。现在,我们追问:除了文字生成视频之外,还有哪些途径可以生成视频?我们能否使用自然语言对视觉内容进行编辑?微软亚洲研究院最新推出的多模态模型 NÜWA,不仅让视觉内容创造多了一条路,甚至还让 Windows 经典桌面有了更多的打开方式。

发布时间:2022-03-03 类型:深度文章

刷新神经网络新深度:ImageNet计算机视觉挑战赛微软中国研究员夺冠

世界上最好计算机视觉系统有多精确?就在美国东部时间12月10日上午9时,ImageNet计算机视觉识别挑战赛结果揭晓——微软亚洲研究院视觉计算组的研究员们凭借深层神经网络技术的最新突破,以绝对优势获得图像分类、图像定位以及图像检测全部三个主要项目的冠军。同一时刻,他们在另一项图像识别挑战赛MS COCO(Microsoft Common Objects in Context,常见物体图像识别)中同样成功登顶,在图像检测和图像分割项目上击败了来自学界、企业和研究机构的众多参赛者。

发布时间:2015-12-11 类型:深度文章

微软研究员在ImageNet计算机视觉识别挑战中实现里程碑式突破

一直以来,计算科学家一直在为建立世界上最精确的计算机视觉系统孜孜不倦地努力着,但取得进展的过程却一直如马拉松竞赛般漫长而艰辛。近期,微软亚洲研究院视觉计算组实现的突破让他们成为了这场竞赛的最新领跑者。该团队所开发的基于深度卷积神经网络(CNN)的计算机视觉系统,在ImageNet 1000挑战中首次超越了人类进行对象识别分类的能力。

发布时间:2015-02-11 类型:深度文章