新闻中心

排序方式

CVPR 2020丨基于记忆增强的全局-局部整合网络:更准确的视频物体检测方法

在视频物体检测任务中,由于相机失焦、物体遮挡等问题,仅基于图像的目标检测器很可能达不到令人满意的效果。针对此类问题,微软亚洲研究院提出了基于记忆增强的全局-局部整合网络(Memory Enhanced Global-Local Aggregation, MEGA),它可以在只增加非常小的计算开销的前提下,整合大量的全局信息和局部信息来辅助关键帧的检测,从而显著地提升了视频物体检测器的性能。在广泛使用的 ImageNet VID 数据集中,此方法达到了截至目前的最好结果。

发布时间:2020-05-26 类型:深度文章

CVPR 2020丨Variational DropPath:提高3D CNN时空融合分析效率的秘诀

时空融合(Spatiotemporal fusion)是三维卷积神经网络(3D CNNs)的关键要素,它决定了网络前馈过程中每一层如何提取、融合空间信号和时间信号。目前已有的时空融合分析方法囿于过大的网络训练开销,仅能对有限数量的融合策略进行网络级别分析。微软亚洲研究院将时空融合策略嵌入到预先定义的概率空间,从而能够对任意多种融合策略进行网络级评估,而不必分别训练它们,极大地提高了针对时空融合策略的分析效率。

发布时间:2020-05-25 类型:深度文章

CVPR 2020丨更准确的弱监督视频动作定位,从生成注意力模型出发

爆发式增长的海量热门视频正在对视频处理技术提出更高的要求,弱监督学习因此越来越重要。针对弱监督动作定位中的关键问题,微软亚洲研究院提出了一种新的思路,从特征表示的角度捕捉上下文和动作片段的区别,进一步提高了动作定位效果。

发布时间:2020-05-08 类型:深度文章

CVPR 2020丨MaskFlownet:基于可学习遮挡掩模的非对称特征匹配

在光流预测任务中,形变带来的遮挡区域会干扰特征匹配的结果。在这篇 CVPR 2020 Oral 论文中,微软亚洲研究院提出了一种可学习遮挡掩模的非对称特征匹配模块,它可以被轻松结合到端到端的基础网络中,无需任何额外数据和计算开销地学习到遮挡区域,从而显著改进光流预测的结果。

发布时间:2020-04-29 类型:深度文章

WWW 2020 | 内存压缩两个量级!中国科大与微软联合推出轻量高效推荐系统

在推荐模型的计算和存储开销都越来越大的今天,我们如何构筑轻量级推荐系统来使搜索变得更高效呢?中国科学技术大学青年教师、铸星学者连德富老师在微软亚洲研究院访问期间,与社会计算组研究员们合作探索了针对內积函数设计神经网络的方法,来实现轻量而高效的推荐系统。该研究成果发表在了 WWW 2020上。

发布时间:2020-04-27 类型:深度文章

ICLR 2020丨微软亚洲研究院精选论文解读

编者按:在全球疫情影响之下,原计划首次在非洲举行的国际 AI 学术会议 ICLR 2020 将成为第一届完全通过网络远程举行的 ICLR 会议。本文为大家介绍的4篇微软亚洲研究院精选论文分别研究了 BERT 在机器翻译中的应用,有理论保障的对抗样本防御模型 MACER,一种新的基于自我博弈的文本生成对抗网络(GAN)训练算法,以及可广泛应用于视觉-语言任务的预训练通用特征表示 VL-BERT。

发布时间:2020-04-20 类型:深度文章

CVPR 2020丨基于范例的精细可控图像翻译CoCosNet,一键生成你心目中的图像

编者按:图像翻译是近年来的研究热点,类比于自然语言翻译,它将输入图像的表达转化为另一种表达,在图像创作、图像风格化、图像修复、域自适应学习等领域有着广泛应用。然而现有技术通常仅能产生合理的目标域图像,其具体风格并不可控。为此,微软亚洲研究院视觉计算组近期提出基于范例的图像翻译技术 CoCosNet,建立原域图与目标域范例图像的密集对应,使生成图片精细匹配范例图片风格。

发布时间:2020-04-14 类型:深度文章

AAAI 2020 | 微软亚洲研究院6篇精选论文在家看

AAAI 2020 明天将在纽约开幕,然而这次的情况有些许不同,许多国内的小伙伴因疫情影响无法到现场参加会议。各位小伙伴在家中做好日常防护的同时,是时候开启“云参会”模式啦。本届 AAAI 中微软亚洲研究院有29篇论文入选,本文为大家介绍的6篇精选论文涵盖多维数据普适分析、文本风格迁移、句子改写、集成学习、实体链接任务等多个前沿主题,如果你不能去到大会现场,先来看看这些精选论文吧。

发布时间:2020-02-06 类型:深度文章

AAAI 2020 | 时间可以是二维的吗?基于二维时间图的视频内容片段检测

当时间从一维走向二维,时序信息处理问题中一种全新的建模思路由此产生。根据这种新思路及其产生的二维时间图概念,微软亚洲研究院提出一种新的解决时间定位问题的通用方法:二维时域邻近网络 2D-TAN,在基于自然语言描述的视频内容定位和视频内人体动作检测两个任务上验证了其有效性,并在 ICCV 2019 中的 HACS Action Localization Challenge 比赛中获得了第一,相关技术细节将发表于 AAAI 2020 论文“Learning 2D Temporal Adjacent Network for Moment Localization with Natural Language”。本文将对这一研究进行深入解读。

发布时间:2019-12-16 类型:深度文章