ICCV 2021 论文分享会|5篇论文带你走进计算机视觉领域最前沿

2021-10-12 | 作者:微软亚洲研究院

编者按:微软亚洲研究院始终关注计算机领域的前沿进展,并以论文分享会的形式为大家带来值得关注的前沿研究,促进计算机各大领域的进步。本系列论文分享会将关注计算机领域的各大顶会,邀请论文作者以线上直播的形式与大家分享并探讨论文的研究问题与研究设计。

本次分享会将介绍入选计算机视觉领域顶级会议之一 ICCV 2021 的五篇精彩论文。进入直播间,跟分享者们一起探索视觉领域的最前沿吧!

 


 

每两年举办一次的 ICCV 是计算机视觉领域的三大顶级会议之一。ICCV 2021 于 10 月 11 日到 17 日在线上举办。根据ICCV 2021官方公布的论文收录结果,本届ICCV共收到 6236 篇投稿,其中 1617 篇被接受,接收率约为 25.9%

ICCV 2021 中,微软亚洲研究院有多篇论文入选。我们将于 10 月 13 日 14:00 - 16:10 举办专场论文直播分享会,分享论文涵盖计算机视觉热门任务,包括伪造人脸检测、图像复原、NAS、自监督学习、物体检测、自监督视频表征学习等,并邀请到论文的作者来为大家进行分享。

 

直播信息

时  间:

2021 年 10 月 13 日,14:30-16:10

地  址:

B 站账号“微软中国视频中心”直播间

 

14:30-14:50
论文题目低质图像化军师:让图像复原测评摆脱高清依赖分享者杨欢,微软亚洲研究院研究员
14:50-15:10
论文题目Soft-Teacher: 一个端到端的半监督物体检测算法分享者张拯,微软亚洲研究院主管研究员
15:10-15:30
论文题目利用对比式遮挡预测任务设计自监督学习算法分享者赵宇澄,前微软亚洲研究院实习生
15:30-15:50
论文题目AutoFormer: 搜索用于视觉识别的 Transformer分享者陈名豪,微软亚洲研究院实习生
15:50-16:10
论文题目基于视频连续性的伪造人脸检测研究分享者鲍建敏,微软亚洲研究院主管研究员
 

扫码直达直播间

扫码加入微信交流群

分享论文与分享者介绍

 

分享者:杨欢 微软亚洲研究院研究员
2019年取得上海交通大学博士学位,同年加入微软亚洲研究院,从事图像复原,图像生成领域的相关研究,在顶级会议期刊上发表论文数篇。
低质图像化军师:让图像复原测评摆脱高清依赖Learning Conditional Knowledge Distillation for Degraded-Reference Image Quality Assessment 分享时间:14:30-14:50
摘要图像质量评估的一个重要场景是评估图像恢复算法。目前最先进的方法基于参考图像,将恢复的图像与其相应的原始质量图像进行比较。然而,在盲图像恢复任务和真实场景中,原始质量的图像通常是难以获得的。在本文中,我们提出了一种更加符合实际需求的解决方案,称为基于退化参考图像的质量评估,它利用图像恢复算法的退化图像输入作为参考。具体来讲,我们通过从原始质量图像中提取知识来从退化图像中提取参考信息。通过学习参考空间来实现质量评估特征的提取,整个训练过程鼓励各种退化图像与原始质量图像共享相同的特征统计信息。基于上述过程,学习得到的参考空间可以很好的捕获图像中对于质量评估敏感的特征。值得强调的是,原始质量图像仅在本文模型的训练期间使用,模型测试时并不依赖于此。整体来讲,我们的工作为盲图像恢复提供了一个强大且可微的度量,尤其是基于 GAN 的方法。大量实验表明,我们的结果甚至可以接近基于原始质量参考图像方法的性能。分享重点

  • 如何评估图像复原算法、衡量所恢复图像的质量?
  • 低质参考图像质量评估(DR-IQA):通过挖掘、利用图像恢复前的低质量图像,得到有用参考信息,从而更好评估所恢复图像的质量。
  • 知识蒸馏网络:从高清图像中学到的参考信息,以知识蒸馏的方式指导对低质量图像参考信息的提取过程。

分享者:张拯 微软亚洲研究院主管研究员
张拯是微软亚洲研究院视觉计算组主管研究员。现在主要研究兴趣是探索更有效的视觉表征学习算法和计算机视觉中的感知与识别算法。在 CVPR/ICCV/ECCV/NeurIPS 等会议发表多篇论文,目前 Citation 超过 2900 次。
Soft-Teacher: 一个端到端的半监督物体检测算法Learning Conditional Knowledge Distillation for Degraded-Reference Image Quality Assessment 分享时间:14:50-15:10
摘要数据是深度学习成功的基石。现代物体检测器往往依赖于大量的有标注数据,然而高质量有标注数据的获取往往是困难且昂贵的。针对此问题,微软亚洲研究院的研究员与实习生们提出了一种全新的端到端半监督物体检测算法Soft-Teacher,该方法可以利用无标注数据来大幅度提升现有物体检测器的性能。比如,通过使用123K的无标签图像(unlabeled2017),Soft-Teacher可将基于 ResNet-50 的 Faster R-CNN 的检测精度从 40.9mAP 提升至 44.5mAP。该方法推进了物体检测与实例分割性能的上界。通过使用 Soft-Teacher,基于 Swin-L 的 HTC++ 检测器在物体检测和实例分割性能分别可以达到 60.4 mAP 与 52.4mAP,分别提升 1.5mAP 和 1.2mAP,这也是首个在 COCO test-dev set 上超过 60mAP 的物体检测结果。分享重点

  • 一个端到端的半监督物体检测学习框架与此前最先进的半监督检测算法相比有何提高?
  • 在使用全部有标记数据(Fully Labeled Data)的设定下与其他方法比较,该学习框架有何优势?
  • 在更广泛的物体检测器上,Soft-Teacher 的表现如何?
 

 

分享者:赵宇澄 前微软亚洲研究院实习生
中国科学技术大学的二年级博士生,导师为查正军教授。于2018年从中国科学技术大学取得了学士学位。于2017-2018、2019-2021作为研究实习生在微软亚洲研究院实习,实习期间导师是罗翀博士。目前研究方向为自监督学习以及计算机视觉。
利用对比式遮挡预测任务设计自监督学习算法Self-Supervised Visual Representations Learning by Contrastive Mask Prediction分享时间:15:10-15:30
摘要目前视觉领域主流的自监督学习算法大多依赖于实例判别这一预训练任务。本文指出实例判别任务实际上利用了训练数据的语义一致性假设,而这一假设并非对所有数据集都广泛成立。因此,我们提出了一个新的预训练任务,即对比式遮挡预测任务,这一任务摆脱了对训练数据的语义一致性假设。我们还设计了相应的自监督学习算法,即 Mask Contrast (MaskCo) 我们使用多个预训练数据集评测 MaskCo,并与 MoCo V2 进行比较。实验结果显示,当使用 ImageNet 作为预训练数据集时,MaskCo 取得了和 MoCo V2 相当的性能;而在使用其他预训练数据集(包括 COCO 和 Conceptual Captions)时,MaskCo 在多个下游任务上取得了优于 MoCo V2 的结果。分享重点

  • 主流自监督算法在预训练数据上的局限性是什么?该局限性的来源是什么?
  • 如何通过提出新的预训练任务突破上述局限性?
  • 相应的自监督学习算法是什么?该算法在预训练数据集上的表现如何?

 

分享者:陈名豪 微软亚洲研究院实习生
微软亚洲研究院多媒体数据与挖掘组(MSM)实习生,导师为彭厚文;纽约州立大学石溪分校的二年级博士生,导师为凌海滨教授。于 2018 年在北京航空航天大学获得学士学位,2020 年从哥伦比亚大学获得硕士学位,2019 年作为研究助理在麻省理工进行访问学习。目前研究兴趣是计算机视觉以及 AutoML 。
AutoFormer:搜索用于视觉识别的TransformerAutoFormer: Searching Transformers for Visual Recognition分享时间:15:30-15:50
摘要Vision Transformer (ViT) 由于其强大的模型容量和抓取长距离依赖的能力,近来在计算机视觉领域引起了极大的关注。研究发现,ViT能够从图像中学习到强大的视觉表示,并已经在各个任务上都展现出了不俗的能力。然而,Vision Transformer 模型的结构设计仍然比较困难。在本文,我们尝试解决两个问题:如何找到合适的结构以提高 Vision Transformer 的能力?作者提出一种新的 one-shot Neural Architecture Search (NAS) 方法 AutoFormer。AutoFormer 配备了新的权重共享机制,重量纠缠。在这种机制下,搜索空间的网络结构几乎都能被充分训练。大量实验表明所提出的算法可以提高超网的排序能力并找到高性能的结构。作者希望通过本文能给手工 ViT 结构设计和 NAS  + ViT 提供一些灵感。分享重点

  • 新的 one-shot Neural Architecture Search (NAS) 方法 AutoFormer 如何克服收敛缓慢和性能较低的问题?
  • AutoFormer 搜索得到的结构和近期提出的 ViT 模型以及经典的 CNN 模型相比结果如何?

分享者:鲍建敏 微软亚洲研究院主管研究员
现为微软亚洲研究院视觉计算组主管研究员。分别于 2014 年和 2019 年在中国科学技术大学获得学士和博士学位。现在主要研究方向为计算机视觉,深度学习,图像处理。并在生成对抗网络,图像合成,合成图像检测等领域发表顶级会议论文数篇以及多项美国专利。目前受邀担任  CVPR,ICCV,AAAI,ECCV,NeurIPS 等会议,和TPAMI,IJCV,TIP 等期刊的审稿人。
基于视频连续性的伪造人脸检测研究Exploring Temporal Coherence for More General Video Face Forgery Detection分享时间:15:50-16:10
摘要随着深度图像合成技术的发展,生成编辑高清的人脸图片技术变得越来越流行,带来信息安全问题。然而当前大多数的伪造人脸检测方法都是在已知的伪造方法上训练的,难以泛化到在未知伪造方法创造的数据上。本篇论文探索如何充分利用时序连续性进行更加通用的伪造人脸视频检测。本文研究了时间序列在更鲁棒和通用的视频人脸伪造检测中的有效性。我们提出首先使用全时序卷积网络对短时闪烁进行编码,然后使用时序 Transformer 探索更微小的长期不连续性。大量实验证明了时序信息对视频人脸伪造检测的显著影响,与以前的方法相比,我们提出的解决方案在鲁棒性和通用性方面都具有优越的性能。我们希望我们的研究能引起社会对 Deepfake 检测中时间不连续性的关注。分享重点

  • 新的 one-shot Neural Architecture Search (NAS) 方法 AutoFormer 如何克服收敛缓慢和性能较低的问题?
  • AutoFormer 搜索得到的结构和近期提出的 ViT 模型以及经典的 CNN 模型相比结果如何?

标签