CVPR 2018:GAN、自动驾驶等技术和应用正强势来袭

2018-07-26 | 作者:鲍建敏

编者按:计算机视觉领域的顶级会议CVPR 2018上个月在美国盐湖城举办。微软亚洲研究院实习生鲍建敏参与了这次CVPR 2018之旅,为我们带回了本次大会上新鲜出炉的计算机视觉前沿研究和他的参会成果分享。


2018年6月18日至22日,计算机视觉的顶级会议CVPR 2018在美国的犹他州首府盐湖城(Salt Lake City)举办。

本届CVPR吸引了来自世界各地的3309篇论文投稿,最终录用论文979篇,投稿数量和接受数量都创下了历史新高。本届大会的论文涉及的内容也非常广泛,涵盖三维视觉、机器学习与视觉、物体识别与理解、计算机视觉理论、视频分析、计算机视觉应用、低中层视觉等等多个热门计算机视觉领域。除了如火如荼的论文投稿,本届CVPR的注册参会人数也达到了破纪录的6512位,会场坐满了来自世界各地的学者们。

主会场盛况

除了盛况空前的会场,论文海报区也是人山人海,大家都热情地向参会来宾分享自己的研究成果。

今年,微软亚洲研究院视觉计算组共有7篇文章发表在CVPR 2018上,分别与风格迁移、图像/视频目标检测、图像分解、高效CNN架构、GAN等方向相关:

  • Dongdong Chen; Lu Yuan; Jing Liao; Nenghai Yu; Gang Hua. “Stereoscopic Neural Style Transfer”.
  • Shuyang Gu; Congliang Chen; Jing Liao; Lu Yuan. “Arbitrary Style Transfer With Deep Feature Reshuffle”.
  • Han Hu; Jiayuan Gu; Zheng Zhang; Jifeng Dai; Yichen Wei. “Relation Networks for Object Detection”.
  • Xizhou Zhu; Jifeng Dai; Lu Yuan; Yichen Wei. “Towards High Performance Video Object Detection”.
  • Qingnan Fan; Jiaolong Yang; Gang Hua; Baoquan Chen; David Wipf. “Revisiting Deep Intrinsic Image Decompositions”.
  • Guotian Xie; Jingdong Wang; Ting Zhang; Jianhuang Lai; Richang Hong; Guo-Jun Qi. “Interleaved Structured Sparse Convolutional Neural Networks”
  • Jianmin Bao; Dong Chen; Fang Wen; Houqiang Li; Gang Hua. “Towards Open-Set Identity Preserving Face Synthesis”

中科大与微软亚洲研究院联合培养博士古纾旸同学在分享论文成果

随着计算机视觉技术的发展,CVPR在工业界的影响力也是越来越大,今年的大会共吸引了100多家企业赞助与参会。展台区更是热闹非凡,微软也在会场也设有一个偌大的展台,展示了CVPR 2018中微软参与的工作以及它们的技术演示。其中有HoloLens推出的针对研究人员开放的研究模式,及其HoloLens在计算机视觉的研究任务中使用,同时还演示了如何高效地设计,开发,维护一个针对计算机视觉问题的系统。

科技范十足的微软展台

在展台区展示的众多技术中,自动驾驶技术无疑是本届CVPR 2018的新宠儿,许多自动驾驶公司都将自己的汽车开到了会场中。

现场展示的自动驾驶汽车

最佳论文

本届CVPR的最佳论文奖颁给了斯坦福大学(Stanford University)和加州大学伯克利分校(UC Berkeley)的Amir R. Zamir等。他们提出了一个解决多视觉任务的框架Taskonomy,尝试使用任务之间的相关性来避免重复学习,从而使得模型可以使用更少的数据来学习相关的任务。

为了找到最优的学习策略,Taskonomy采用了量化视觉任务相关性的方法。如果两个视觉任务A和任务B之间具有相关性,那么在学习过程中,任务A和任务B可以相互帮助对方学到更好的表达。举个例子,任务A是物体检测,任务B是物体分割,这两个典型的视觉任务在Mask-RCNN中被验证他们可以相互帮助,相互提升对方的准确率。Taskonomy通过迁移学习计算了26个不同视觉任务的相关性,基于这些相关性,我们可以得到对于一组任务的最优学习策略。

论文链接:http://taskonomy.stanford.edu/taskonomy_CVPR2018.pdf

今年的最佳学生论文奖(Best Student Paper Award)由来自卡耐基梅隆大学(CMU)的Hanbyul Joo等获得。该研究提出了一种3D的可变形模型,除了能够追踪身体的整体动作,它还能够追踪人们脸上的表情、手势等微小的动作。

为了实现这样的运动追踪,他们提出了Frank模型和Adam模型两个模型,Frank模型可以将人体各部位的模型进行局部组合,并能通过单个无缝模型完整表达人体部位的动作,包括人脸和手的动作。Adam模型与初始模型具备同样的基础层级,但是它可以表现头发和衣服的几何形状,直接查看衣服和人是否相配。两个模型结合在一起不仅可用于整体动作追踪,而且可以同时捕捉一个人的大规模身体动作和细微的面部、手部动作。

论文链接:https://arxiv.org/pdf/1801.01615.pdf

大会热门:生成对抗网络(GAN)

在本届CVPR的参会论文中,生成对抗网络(GAN)是引人关注的一大热门技术,被应用于图片合成、风格迁移、小脸检测、图片去雾等越来越多的问题中。生成对抗网络由Ian Good fellow首先提出,在近四年的发展中,GAN在越来越多的领域中发挥着至关重要的作用,越来越多的人认为GAN正在取代深度学习,成为新的关注焦点。

GAN由生成网络G和判别网络D两个网络构成。在训练过程中,判别网络D尝试对生成网络G生成的图片和真实图片进行分类,生成网络G则尽可能使自己生成的图片接近真实图片,使判别网络D难以辨别生成图片和真实图片,这样就形成了对抗的局面,最后的训练结果是判别网络D无法辨别生成网络G生成的图片,生成网络G生成图片的数据分布和真实数据的分布达到一致。GAN网络原理如下图所示。

由于GAN在深度学习领域的火热,与GAN相关的论文也是层出不穷。过去三年里,光是名字中带有GAN的论文就呈现出指数型增长态势。

(图片来自:https://github.com/hindupuravinash/the-gan-zoo)

GAN的研究项目如此之多,要归功于它广泛的应用场景。

首先,GAN可以用于简单的基于条件生成图片,比如由文字描述去生成图片,比如由一段鸟的描述去生成鸟。如下图中CVPR 2018论文“AttnGAN: Fine-Grained Text to Image Generation with Attentional Generative Adversarial Networks”的结果,AttnGAN在GAN中引入attention的概念,使网络能够更加有重点地生成图片,生成结果将更加清晰、自然。

论文链接:https://arxiv.org/pdf/1711.10485.pdf

其次,GAN可以用于转换存在对应关系的图片。例如将标签转换为实景,将灰度图片转换为彩色图片,将航拍地图转换为二维地图等等。

下图是CVPR 2018论文“High-Resolution Image Synthesis and Semantic Manipulation with Conditional GANs”的结果,从街景标签到街景实景的生成过程使用了由粗粒度到细粒度的思想,先生成低分辨率的图片,然后再逐步生成高分辨率的图片。

论文链接:https://arxiv.org/abs/1711.11585

另外,GAN还可以被用于小脸检测。对于图片中我们感兴趣的区域,可以利用GAN来进行放大,从而更好地判断该区域是否存在人脸,提升小人脸检测的准确率。如下图中CVPR 2018论文“Finding Tiny Faces in the Wild with Generative Adversarial Network”结果所示。

论文链接:http://openaccess.thecvf.com/content_cvpr_2018/CameraReady/0565.pdf

保留身份信息的人脸合成技术

在本届CVPR上,微软亚洲研究院视觉计算组也利用GAN网络贡献了一些有趣的研究。在论文“Towards Open-Set Identity Preserving Face Synthesis”中,我们希望解决开放数据集中人脸生成的问题,合成保留图中人脸原始特点的图像。如下图所示:

针对一张输入的人脸图片,我们希望从中得到身份和属性信息。在这个例子中,A(蒙娜丽莎)和B(赫本)为输入,我们的模型从A和B中分别得到身份信息和属性信息,然后通过重组,得到一个和原赫本图片相同属性的蒙娜丽莎图片A’,和一个和原蒙娜丽莎图片相同属性的赫本图片B’。

为了实现这种“改头不换面”的效果,我们提出了一个基于GAN的框架,如下图所示:

其中,I网络用来提取图片的身份信息,A网络用来提取网络的属性信息,G通过提取的信息生成一张新的图片,C网络用来保证生的图片和提供身份信息的图片的身份信息一致,D网络用来保证生成的图片是一张真实的图片。

通过在MS-Celeb-1M上的训练,我们的模型能够在开放数据集上生成保持身份信息的图片。在开放数据集上得到的结果如下图所示:

图中,(a)是提供身份信息的图片,(b)是提供属性信息的图片,(c)是模型生成的结果,同一行的图片具有相同的身份信息,同一列的图片具有相同的属性信息。从生成图片中可以看到,我们的模型既保持了与(a)相同的身份信息,又保持了与(b)相同的属性信息。

论文链接:https://arxiv.org/pdf/1803.11182.pdf

CVPR作为计算机视觉的顶级会议,正吸引着越来越多的来自学术界和工业界的关注。会场里随处可见的学术大牛,不期而遇的昔日好友,展台区各家公司的黑科技和领不完的礼物,世界杯期间会场还贴心地同步比赛直播,这样的CVPR,让人去了还想去。

作者介绍

鲍建敏,2014年本科毕业于中国科学技术大学少年班学院,后进入中科大信息科学学院李厚强教授实验室攻读博士,2016年进入微软亚洲研究院实习,主要的研究方向是人脸识别与合成,生成对抗网络。