新闻中心

排序方式

CVPR 2020丨基于记忆增强的全局-局部整合网络:更准确的视频物体检测方法

在视频物体检测任务中,由于相机失焦、物体遮挡等问题,仅基于图像的目标检测器很可能达不到令人满意的效果。针对此类问题,微软亚洲研究院提出了基于记忆增强的全局-局部整合网络(Memory Enhanced Global-Local Aggregation, MEGA),它可以在只增加非常小的计算开销的前提下,整合大量的全局信息和局部信息来辅助关键帧的检测,从而显著地提升了视频物体检测器的性能。在广泛使用的 ImageNet VID 数据集中,此方法达到了截至目前的最好结果。

发布时间:2020-05-26 类型:深度文章

CVPR 2020丨Variational DropPath:提高3D CNN时空融合分析效率的秘诀

时空融合(Spatiotemporal fusion)是三维卷积神经网络(3D CNNs)的关键要素,它决定了网络前馈过程中每一层如何提取、融合空间信号和时间信号。目前已有的时空融合分析方法囿于过大的网络训练开销,仅能对有限数量的融合策略进行网络级别分析。微软亚洲研究院将时空融合策略嵌入到预先定义的概率空间,从而能够对任意多种融合策略进行网络级评估,而不必分别训练它们,极大地提高了针对时空融合策略的分析效率。

发布时间:2020-05-25 类型:深度文章

CVPR 2020丨更准确的弱监督视频动作定位,从生成注意力模型出发

爆发式增长的海量热门视频正在对视频处理技术提出更高的要求,弱监督学习因此越来越重要。针对弱监督动作定位中的关键问题,微软亚洲研究院提出了一种新的思路,从特征表示的角度捕捉上下文和动作片段的区别,进一步提高了动作定位效果。

发布时间:2020-05-08 类型:深度文章

CVPR 2020丨MaskFlownet:基于可学习遮挡掩模的非对称特征匹配

在光流预测任务中,形变带来的遮挡区域会干扰特征匹配的结果。在这篇 CVPR 2020 Oral 论文中,微软亚洲研究院提出了一种可学习遮挡掩模的非对称特征匹配模块,它可以被轻松结合到端到端的基础网络中,无需任何额外数据和计算开销地学习到遮挡区域,从而显著改进光流预测的结果。

发布时间:2020-04-29 类型:深度文章

CVPR 2020丨基于范例的精细可控图像翻译CoCosNet,一键生成你心目中的图像

编者按:图像翻译是近年来的研究热点,类比于自然语言翻译,它将输入图像的表达转化为另一种表达,在图像创作、图像风格化、图像修复、域自适应学习等领域有着广泛应用。然而现有技术通常仅能产生合理的目标域图像,其具体风格并不可控。为此,微软亚洲研究院视觉计算组近期提出基于范例的图像翻译技术 CoCosNet,建立原域图与目标域范例图像的密集对应,使生成图片精细匹配范例图片风格。

发布时间:2020-04-14 类型:深度文章

一键提升多媒体内容质量:漫谈图像超分辨率技术

作为将模糊的图像变清晰的神奇技术,图像超分辨率技术在游戏、电影、相机、医疗影像等多个领域都有广泛的应用。在这篇文章中,微软亚洲研究院的研究员们为你总结了图像超分辨率问题中的主流方法、现存问题与解决方案。微软亚洲研究院在图像超分辨率领域的相关技术也已在顶级会议发表,并转化入 PowerPoint 产品中。

发布时间:2020-04-02 类型:深度文章

鉴别真假,Face X-Ray技术给换脸图像“照X光”

俗话说“耳听为虚,眼见为实”,如今在人工智能技术的影响下,“眼见也不一定为实”。在近日热播的英剧《真相捕捉(The Capture)》中,各种视频里的人都可以被换脸,即使是实时的监控录像也能被篡改,只要拥有一个人的声音或面部图像数据,就可以制造假视频作为假证据。虽然剧中的故事只是虚拟的剧情,但细思极恐,人工智能技术的突飞猛进,让人们意识到我们必须警惕伴随 AI 技术发展而产生的 AI 技术被滥用的问题。

发布时间:2020-02-24 类型:深度文章

机器推理系列第五弹:文本+视觉,跨模态预训练新进展

机器推理要求利用已有的知识和推断技术对未见过的输入信息作出判断,在自然语言处理领域中非常重要。此前我们介绍了机器推理系列的概览,机器推理在常识问答、事实检测、跨语言预训练、多轮语义分析和问答任务中的应用,本文作为该系列的第五篇,将介绍微软亚洲研究院在跨模态预训练领域的研究进展。

发布时间:2020-01-14 类型:深度文章