专访ICIP 2017技术程序主席曾文军:新技术带来新数据,“旧瓶”装不了“新酒”

2017-09-21 | 作者:微软亚洲研究院

近年来,不断席卷而来的人工智能热潮将一大批计算机领域的国际顶级学术会议带入到了人们的视野,也把更多的优秀科研成果展现在世界面前。

9月17-20日,国际顶级图像处理领域学术会议IEEE ICIP 2017(ICIP, International Conference on Image Processing)首次来到中国内地,在北京举行,共吸引了约1300人参与。作为本届ICIP的技术程序主席,微软亚洲研究院首席研究员曾文军博士与我们分享了他在“前线”工作的独特视角,以及在本届大会中的所见及所感。

问题:请您先介绍一下ICIP大会。

曾文军:ICIP大会是IEEE(Instituteof Electrical and Electronics Engineers,电气和电子工程师协会)下设的专业领域分会。最早IEEE是以音频信号处理为主,到了90年代初期,二维图像变得越来越重要,应用范围也开始逐渐扩大,因此在1994年IEEE信号处理协会单独设立了ICIP大会,主要针对图像处理领域的研究,包括从底层的简单处理到高层的视觉理解都有涉及,目前已成为国际顶级的图像处理学术会议。今年的ICIP大会是第一次来到中国大陆,由此可以看出中国近年来在相关技术科研方面的快速发展,IEEE也希望能够吸引更多优质的会员。由于国内的研究实力越来越强,所以本届大会的组委会也有很大一部分国内的力量。

问题:作为ICIP2017技术程序主席,您主要负责哪些方面的工作?

曾文军:我负责的内容比较偏重技术层面。首先是要组织成立大会技术委员会,招募不同研究方向的领域主席。今年的大会共有79个领域主席,涵盖采集成像、显示、传输、处理、分析理解、安全等各个方面。其次是组建审稿团队,由大约1200位审稿人所组成的审稿团队对提交的文章进行反复审核和考量。每一篇文章基本都需要3-4位审稿人进行审查,然后进行打分和评比。我们今年的论文录取率大概在45%左右,其中,在确定录取边界的时候会需要格外慎重,通常我们会让领域主席先做推荐,然后再确定最终的录取名单。此外,我们还会依据一些行业热点或者课题在大会期间组织特别专题,一般会从十几个提案的方向中重点挑选几个去落实,今年就有七个特别专题。

微软亚洲研究院首席研究员曾文军博士

问题:从您参与论文评审的角度来看,这届大会和往年相比有哪些不一样的地方?

曾文军:从文章的角度出发,我们可以清楚地看到不同领域的投稿量在产生着变化。有些话题的投稿量有显著增加,而有些可能就相应地有所减少。而从现在投稿量增加的两个方向就可以看出一些未来的趋势:

一个是计算成像——通过计算实现拍摄成本降低的同时保持拍摄质量。相较去年,本届大会中有关计算成像的论文投稿量增加了18%,其中与多视角和三维相关的论文增加了50%。尽管基数可能并不大,但是近两年来,这方面研究的增长趋势比较乐观。

另一个就是我们耳熟能详的深度学习,在图像和视频分析理解方面深度学习相关的论文投稿量相比去年也有20%的涨幅。近年来,深度学习主要被应用于高层次图像分析理解中,但目前图像处理领域各个层次上的工作也都在积极结合深度学习进行进一步的研究,比如图像增强和图像压缩,深度学习确实能够帮助呈现更好的效果。

另外,还有一些没有此前热门的研究方向,比如图像传输、图像采集显示等等,因为目前这些方向的研究已经相对比较成熟,在没有新问题出现的情况下,偏向传统的研究领域相对会有所降温。总体上来说,现在偏上层的研究更加热门,而关于底层的研究文章会减少一些。

问题:在本次ICIP2017大会中有没有出现特别新颖的观点?

曾文军:由微软赞助的最佳论文奖获得者其实是很有代表性的一篇文章“Layered-Givens Transforms: Tunable Complexity, High-Performance Approximation of Optimal Non-Separable Transforms”,它解决的问题比较经典,但在思路和理论上比较有意思。

图像处理属于信号处理的一部分,信号处理实际上有一个理论体系,一般很多常见的是叫变换,其实卷积运算就是一个变换,也是图像处理最早在用的。这种变换的问题就在于理论和实践往往无法协同。我们传统做处理的时候不会直接对图像进行整体操作,因为图像是二维的,二维操作一般分为行和列,直接变换的复杂度会相对较高。所以实际应用时,我们通常会分别对图像的行和列进行处理,把它先当成一维信号操作,然后再进行整合。两次一维的处理会大大降低处理的复杂度,速度也会相应更快。

而本届最佳论文想解决的问题就很有意思。理想的“不可分变换”的传统想法只是在理论上有价值,但实际操作比较困难,所以该论文就想研究一下能不能设计一个变换能够同时达到“不可分变换”的精度和性能,又可以达到和分开处理的效果一样快的速度。这个想法有些类似于神经网络,它相当于设计了一个多层次的、有一定规律性的变换,最后整合时就能模拟原先那个相对复杂但是功能较强的变换。经过计算验证,这个设计能够保持精度又能达到和分开处理同样快的速度。该论文中的有些思路比较新颖,而且也有理论基础,贯穿了数学推算,推算完以后出来的算法又是快速算法,所以未来的实际应用价值可能会比较大。

另外,本次大会的三个 plenary speeches(大会报告)也都很精彩。比如来自Technion的Michael Elad教授分享了他对稀疏建模的深刻见解以及多层稀疏建模和深度学习的关系,给深度学习提供了更加清晰的理论解释。来自UCLA的朱松纯教授独特地探讨了视觉数据模型表示的3个不同学派及其关系。

问题:微软还赞助了最佳学生论文奖,那么这篇论文的主要研究内容是什么?

曾文军:最佳学生论文奖“Pre-demosaic Light Field Image Compression using Graph Lifting Transform”的内容主要是研究光场成像里的数据压缩问题。光场成像用的是一个全新的模型,其特殊的性能决定了它产生的数据与传统的不同,因此需要用新的方法对这些新数据进行处理或压缩。具体来说,光场成像的好处是一次成像就能够记录下多视角的物体信息,相当于我们的双眼。然而,光场成像不一样的地方还体现在其数据的独特性,数据之间的关系比较复杂,需大量成像才能还原一个点在多个视角下所呈现出的信息,因此会产生分辨率的问题,导致出现类似于马赛克的效果。

传统的压缩方法在处理中会引进一些误差,但本次最佳学生论文提出了一种新的思路,利用图论的方式先把各个点之间的关系梳理清楚,从而表达成一个图的数据,再用基于图论的算法去做压缩。这篇论文很难得的一点是他们没有遵循传统的图像数据处理方法,而是运用了新的思路去处理全新的数据。

问题:微软在本届ICIP大会中有哪些参与?

曾文军:本届大会中共有五位来自微软的领域主席,他们所负责的领域各不相同,包括图像传输、视觉、图像分析、图像处理、视频处理等。同时,微软亚洲研究院资深研究员梅涛以及微软雷德蒙研究院首席研究员张察还在大会上分别进行了题为“Visionand Language: Bridging Vision and Language with Deep Learning”以及“ScalableDeep Learning for Image Processing with Microsoft Cognitive Toolkit”的分享。

除此之外,微软本届共有九篇论文录用,信息如下,供大家参考、了解:

  • SELECTIVE MOTION ESTIMATION STRATEGY BASED ON CONTENT CLASSIFICATION FORHEVC SCREEN CONTENT CODING
    Mengmeng Zhang, Shuai Wang, North China University of Technology; Bin Li, Microsoft Research Asia
  • INTRA PREDICTION USING FULLY CONNECTED NETWORK FOR VIDEO CODING
    Jiahao Li, Peking University; Bin Li, Jizheng Xu, Microsoft Research Asia; Ruiqin Xiong, Peking University
  • Ground2Sky Label Transfer for Fine-grained Aerial Car Recognition
    Baochen Sun, Microsoft AI and Research Group, United States; Xingchao Peng, Boston University, United States; Stella X. Yu, UC Berkeley / ICSI, United States; Kate Saenko, Boston University, United States
  • GPGPU IMPLEMENTATION OF VP9 IN-LOOP DEBLOCKING FILTER AND IMPROVEMENTSFOR AV1 CODEC
    Zhijun Lei, Intel Corporation, United States; Srinath Reddy, Victor Cherepanov, Microsoft Corporation, United States; Zhipin Deng, Intel Corporation, United States
  • SURVEILLANCE VIDEO CODING WITH VEHICLE LIBRARY
    Changyue Ma, Dong Liu, University of Science and Technology of China; Xiulian Peng, Microsoft Research Asia; Feng Wu, University of Science and Technology of China
  • TENSORIAL COMPRESSIVE SENSING OF JOINTLY SPARSE MATRICES WITHAPPLICATIONS TO COLOR IMAGING
    Edgar A. Bernal, United Technologies Research Center, United States; Qun Li, Microsoft Corporation, United States
  • FINGERTIP DETECTION BASED ON PROTUBERANT SALIENCY FROM DEPTH IMAGE
    Yuseok Ban, Yonsei University, Korea (South); Minglei Li, Lei Sun, Qiang Huo, Microsoft Research
  • Foreground Detection in Camouflaged Scenes
    Shuai Li, University of Wollongong, Australia; Dinei Florencio, Microsoft Research, Australia; Yaqin Zhao, Nanjing Forestry University; Chris Cook, Wanqing Li, University of Wollongong, Australia
  • PROGRESSIVE GRAPH-SIGNAL SAMPLING AND ENCODING FOR STATIC 3D GEOMETRYREPRESENTATION
    Mingyuan Zhao, Tsinghua University; Gene Cheung, National Institute of Informatics, Japan; Dinei Florencio, Microsoft Research, United States; Xiangyang Ji,Tsinghua University

问题:您对图像处理技术未来的发展趋势或研究热点有哪些展望和预期?

曾文军:我觉得有两个比较明显的趋势,第一个是,新的成像技术或者新设备的出现都会给图像处理技术带来新的问题和挑战,如何围绕这些图像或视频的数据进行处理是我们需要研究的重点,比如国内非常热门的AR和VR,以及光场成像这种和计算成像相关的方向。第二个趋势是很多原先应用于高层图像分析理解的技术会慢慢往下层渗透,比如说深度学习,会逐渐运用到图像处理的各个领域上去。

问题:微软亚洲研究院未来一段时间内在图像处理领域会有哪些方面的工作?

曾文军:一直以来,计算机视觉和图形图像方面都是微软亚洲研究院的核心研究领域之一,我们也在该领域取得了丰硕的研究成果。未来,我们将尝试探索如何把在高层方面已经获得的技术突破和相关信息高效地运用到基础层级的图像处理中去。