新闻中心

排序方式

CVPR 2021 | 微软提出"解构式关键点回归", 刷新COCO自底向上多人姿态检测记录!

在拥挤的人群的场景下,由于人群过于密集,重合程度太高,所以每个人的位置难以用人体检测框表示,而传统的一些自下而上的人体姿态估计算法也很难检测到人物的关键点。因此,微软亚洲研究院提出了用直接回归坐标的方法设计多人姿态检测模型,其结果超过了此前的关键点热度图检测并组合的方法,并且在 COCO 和 CrowdPose 两个数据集上达到了目前自底向上姿态检测的最好结果。相关工作“DEKR: Bottom-Up Human Pose Estimation Via Disentangled Keypoint Regression”已被 CVPR 2021 收录。

发布时间:2021-06-25 类型:深度文章

CVPR 2021 | 9篇精选论文,一览微软亚洲研究院视觉研究前沿进展

作为世界顶级的 AI 会议,CVPR 一直引领着计算机视觉与模式识别技术领域的学术与工业潮流。今年的 CVPR 于6月19日至25日在线上举办。在此,为大家精选了9篇微软亚洲研究院被 CVPR 2021 收录的论文,一览计算机视觉领域的前沿研究。

发布时间:2021-06-22 类型:深度文章

CVPR 2021 | CoCosNet v2解锁“高配版”图像翻译

针对图像翻译(image translation)任务,微软亚洲研究院的研究员们曾在 CVPR 2020 发表的论文中提出了 CoCosNet 算法,解决了图像生成过程中风格精细控制的难题。目前这一基于样例的图像翻译技术再升级!借鉴 PatchMatch 的思想,研究员们提出了 CoCosNet v2 算法,实现了在原高清分辨率下高效近似注意力(attention)机制。相比第一代算法,CoCosNet v2 能够应用到高清大图的生成过程中,同时也能节省大量的计算内存开销。目前,相关工作论文“Full-resolution Correspondence Learning for Image Translation”已被收录为 CVPR 2021 oral,并入围 Best Paper 候选名单。

发布时间:2021-06-18 类型:深度文章

CVPR 2021 | 神经网络如何进行深度估计?

与深度神经网络相比,人类的视觉拥有更强的泛化能力,所以能够胜任各项视觉任务。结合人类视觉系统“通过观察结构信息获得感知能力”的特点,微软亚洲研究院的研究员们提出了一种新的深度估计方法,能够赋予神经网络强大的深度估计的泛化能力。目前,相关工作的论文已被 CVPR 2021 收录。

发布时间:2021-06-03 类型:深度文章

Transformer在计算机视觉领域走到哪了?

Transformer 模型在自然语言处理(NLP)领域已然成为一个新范式,如今越来越多的研究在尝试将 Transformer 模型强大的建模能力应用到计算机视觉(CV)领域。那么未来,Transformer 会不会如同在 NLP 领域的应用一样革新 CV 领域?今后的研究思路又有哪些?微软亚洲研究院多媒体搜索与挖掘组的研究员们基于 Vision Transformer 模型在图像和视频理解领域的最新工作,可能会带给你一些新的理解。

发布时间:2021-05-21 类型:深度文章

学术新星畅谈计算机视觉科研之路:视觉研究已经成熟,跨学科方法成为趋势

4月22日,微软亚洲研究院创研论坛 CVPR 2021 论文分享会在线上举行。来自国内外计算机视觉领域的21位优秀代表与观众零距离交流,分享了他们在 CVPR 2021 发表的最新研究成果。本届活动特别邀请了来自卡耐基梅隆大学、哥伦比亚大学、布朗大学、苏黎世联邦理工学院、斯坦福大学、南京理工大学和旷视研究院的7位学术新星,一起畅谈“计算机视觉科研之路”,讨论的内容从研究方向到研究心态,以及未来计算机视觉的探索方向等。

发布时间:2021-05-13 类型:深度文章

微软亚洲研究院最新研究成果:文字生成视频,只需一步

随着网络性能的不断提升,视频已经成为越来越多人获取信息、娱乐休闲的主要方式,与此同时也涌现出了不少视频的创作人员,他们将喜欢的人、事、物,以具有创意的视频形式呈现出来,这让和小编一样毫无视频创作细胞的小白羡慕不已。不过,这样的能力你很快就可以借助技术实现了,微软亚洲研究院提出的开放领域视频生成预训练模型 GODIVA,基于 3D 注意力机制,克服了视频帧连续性建模的挑战,可秒级实现基于文字脚本生成视频。

发布时间:2021-05-07 类型:深度文章

ICLR 2021 | 协同调制生成对抗网络,轻松帮你实现任意大区域图像填充

图像填充是深度学习领域内的一个热点任务。尽管现有方法对于小规模、稀疏区域的填充可以取得不错的效果,但对于大规模的缺失区域始终无能为力。为解决这一问题,微软亚洲研究院提出了协同调制生成式对抗网络——一种通用的方法,跨越了条件与无条件图像生成领域之间的鸿沟。这一方法不但能够高质量、多样地填充图像任意规模的缺失区域,同时也能被应用于更广泛的图像转换任务。此外,考虑到图像填充领域内缺乏良好的指标,研究员们还提出了配对/无配对感知器辨别分数(P-IDS/U-IDS)以更加鲁棒、直观、合理地衡量模型性能。该相关工作已被 ICLR 2021 接受为 Spotlight Presentation。

发布时间:2021-04-28 类型:深度文章

NeurIPS 2020 | 微软亚洲研究院论文摘录之目标检测篇

12月6日至12日,国际人工智能顶级会议 NeurIPS 2020(Conference and Workshop on Neural Information Processing Systems,神经信息处理系统大会)将在线上举办。相比前几年,2020年 NeurIPS 会议不管从论文投稿数量还是接收率都创下了记录:论文投稿数量创历史最高记录,比2019年增长了38%,但接收率却为史上最低。目标检测(object detection)是计算机视觉中的基础任务,旨在定位图像或视频中某几类物体的坐标位置。本文将对微软亚洲研究院入选 NeurIPS 2020 中的目标检测工作进行介绍。

发布时间:2020-12-07 类型:深度文章

挑战新物体描述问题,视觉词表解决方案超越人类表现

最近,研究者们发布了 nocaps 挑战,用以测量在没有对应的训练数据的情况下,模型能否准确描述测试图像中新出现的各种类别的物体。针对挑战中的问题,微软 Azure 认知服务团队和微软研究院的研究员提出了全新解决方案视觉词表预训练 (Visual Vocabulary Pre-training)。该方法在 nocaps 挑战中取得了新的 SOTA,并首次超越人类表现。

发布时间:2020-10-14 类型:深度文章