技术变革浪潮下，计算机视觉研究领域有哪些新的研究思路？

2023-05-16 | 作者：微软亚洲研究院

计算机视觉领域顶级会议 CVPR 2023 中有哪些有代表性的科研成果？面对技术变革的浪潮，计算机视觉研究领域有哪些新的研究思路，又有哪些未来趋势？人工智能的简约性和自洽性如何在研究中体现？

在 4 月举办的 CVPR 2023 论文分享会中，多元的讲者们为这些问题给出了答案。本次活动由微软亚洲研究院高级研究员胡瀚和学术合作经理陈昊组织筹办。在这里，近百位观众线下相聚，思想交锋，研讨热烈。同时，在总计 8 个小时的不间断直播中，累计超过 3.78 万观众在云端观看聆听，共话计算机视觉的前沿发展。

多元力量汇聚，

点亮计算机视觉领域发展道路

本次分享会由微软亚洲研究院主办，微软智能信息处理西安交通大学实验室承办，中国计算机学会计算机视觉专委会、中国图象图形学学会视觉大数据专委会、中国自动化学会共融机器人专业委员会、中国计算机学会女计算机工作者委员会、中国图象图形学学会女科技工作者工作委员会协办。会议中，横跨学术界与产业界的讲者们，从不同的方向与视角出发，分享了他们在 CVPR 2023 上发表的最新成果。

分享会伊始，微软亚洲研究院学术合作部总监马歆女士首先致辞。她总结了本次分享会的三个亮点，分别是“聚焦”“年轻”“多元”，鼓励参会者多思考、多表达、多交流，同时代表中国计算机学会女计算机工作者委员会鼓励女性更多地投身相关研究领域。西安交通大学教授兰旭光博士则代表自动化学会共融机器人专委会，回顾了近年来人工智能领域的发展和挑战，并对人工智能在各个领域的未来进行了展望。上海科技大学教授虞晶怡博士代表中国计算机学会计算机视觉专委会，回顾了 CVPR 会议的发展历程以及计算机视觉领域当前的机遇和挑战，希望大家可以在难得的面对面交流中完成知识的积累和思维的碰撞。东南大学教授耿新博士代表中国图象图形学学会视觉大数据专委会期待大家可以一起培育良好的学术生态，根据不同的研究定位与研究资源找到属于自己的发展路径。微软亚洲院高级研究员胡瀚博士带领大家回顾了 CVPR 论文分享会的七年坚守，并对今年的活动安排进行介绍，以更丰富可口的餐点、更聚焦的内容、深刻的主旨演讲，为参会者带来一场多方位的学术盛宴。

在主旨报告环节，香港大学数据科学研究所首任所长、加州大学伯克利分校 EECS 教授马毅博士带来了题为《简约性和自洽性原则：从人工智能到自主智能》的精彩分享，带领观众回归第一性原理。该报告深度与广度并济，为人工智能科学研究和实际应用均提供了宝贵的启发。首先，他从历史纵深的视野出发，梳理了人工神经网络近 80 年的演变，追溯人工智能的起源以及智能研究“真正神奇的十年”，为当下的自主智能研究提供既往经验的滋养，并进一步指明未来的发展方向——实现从黑盒到百盒的深度网络理论、从开环到闭环的学习模型功能、从人工到自主的智能科学，迈向适合所有规模智能系统的通用计算机制。

“一切都应该尽可能简单，但不能更简单。”他援引了爱因斯坦的话语，从简约和自洽这两个基本原则出发，强调要从高维数据中学习低维结构，并进行闭环反馈与博弈纠错。基于此两点，他提出了“压缩闭环转录”这一通用学术引擎，作为所有自治智能系统的基本学习单元，并再次主张打开智能的黑盒子与实现闭环学习，在个人和群体层面实现信息增益的最大化。

聚焦三大主题，

探索计算机视觉研究的无限可能

在之后的分主题分享与研讨中，本次分享会聚焦于以下三个领域的深度交流：视觉生成（Visual Generation），视觉基础模型（Visual Foundation Model）和视觉+X（Visual +X），一起探索计算机视觉领域的无限可能。

其中，“视觉生成”环节由来自微软亚洲研究院的陈栋主持。本环节的分享内容涉及图像生成、音视频联合生成、版面生成和 3D 生成，聚焦实际问题，提出创新想法。为实现单模型控制任意文本的图像编辑技术，来自中国科学院自动化研究所的董晶团队提出了一种无文本参与训练的编辑方法，他们利用 CLIP 图像-文本差值特征，探索对齐良好的 CLIP 图像-文本语义空间，从而满足多样化需求，应对多种文本描述，获得高泛化性、灵活性的良好成果。在现有流行的单模态生成研究的基础之上，来自微软亚洲研究院的杨欢团队提出联合音视频生成的多模态扩散模型 MM-Diffusion，在保证音视频生成一致性的同时，带来相对单模态更加吸引人的观看和聆听体验。为应对版面生成在实际使用场景中复杂多变的需求，来自微软亚洲研究院的张直政团队用解耦的 diffusion model 来统一版面生成的诸多任务，从基本元素的特性出发构建版面设计的任务，并创新性地提出“先解耦再扩散”的建模思想。面对 2D 生成模型的革命性发展，来自微软亚洲研究院的张博团队则将传统的 2D 生成扩散模型拓展于 3D 数字人生成中，形成第一个 3D diffusion model RODIN 模型，助力高效生成可 360 度自由视角观察的数字人形象，让 3D 内容生成更个性、更普适。

随后的“视觉基础模型”环节由来自微软亚洲研究院的罗翀主持。本环节的分享内容涉及理论分析、模型设计、预训练算法和它的应用，从而为下游任务的执行提供坚实基础。为解决朴素 GZSL 任务设置不能处理随时间动态添加新的已知和未知类别的问题，来自北京交通大学的金一团队提出了一种更实用同时更具挑战性的任务设置，称为广义零样本类别增量学习，要求模型在增量阶段不新增任何标注样本情况下，实现已知类识别性能保持与未知类泛化。基于 CLIP 的方法受益于语言-图像对比预训练而展现出的优异小样本性能，来自上海人工智能实验室的高鹏进一步拓展提出 CaFo，通过“提示，生成，缓存”的工作流程结合了多种预训练范式的多样化先验知识，充分释放不同预训练方法的潜力。为了在去除基本构建模块中的令牌混合器的同时保持视觉骨干网络的有效性，来自上海人工智能实验室的张松阳团队基于重新参数化的思想开发了一个名为 RIFormer 的基础架构，希望此项工作能够成为探索优化驱动的高效网络设计的起点。自监督学习作为近期一系列重要工作的核心技术之一，来自北京大学的王奕森则以对比学习和掩码学习为例，探究自监督学习背后的工作机理，从理论视角分析其优化过程和下游泛化能力。为了更有效地利用已有的图像语言预训练模型进行视频语言预训练，来自微软亚洲研究院的刘蓓团队提出了一种基于 CLIP 的配备视频代理机制的 Omnisource 跨模态学习方法，极大提升了 CLIP 在视频文本检索上的性能。为帮助更好地解决各种具有挑战性的下游任务，来自微软亚洲研究院的鲍建敏将新提出的 masked self-distillation 结合到对比语言图像预训练中，形成了一个简单而有效的框架 MaskCLIP，取得了优异结果。

最后的“视觉+X”环节由来自西安交通大学的田智强主持。本环节的分享内容涉及图像描述、自动驾驶、手语识别和健身数据，为计算机视觉研究注入无限活力，成为连接物理世界的桥梁。在对图像描述生成任务的技术历程进行梳理的基础上，来自京东的潘滢炜提出了一种新颖的基于扩散模型的设计范式——语义条件扩散网络（SCD-Net），证明了使用扩散模型解决图像描述生成任务的潜力。面对多任务自动驾驶所存在的系列问题，来自上海人工智能实验室的陈立提出了一套以最终任务为导向、多模块联合优化的端到端自动驾驶方案，达到了感知、预测、决策多个任务结合的最优解。为了解决连续手语识别中空间感知模块训练不充分的问题，来自天津理工大学的薛万利提出了跨时空上下文聚合方案，即建立一个双路径网络分别感知局部时空和全局时空上下文，同时设计一个跨上下文知识蒸馏学习目标，以聚合两种时空信息和语言先验。为了回应健身运动分析领域对高质量数据的增长需求，而来自清华大学深圳国际研究生院的唐彦嵩提出了 FLAG3D 这一具有语言指令的大规模三维健身运动数据集，更好地帮助大家应对跨域人体动作识别、动态人体形态恢复，以及语言引导的人类动作生成等各种挑战。针对当前手语识别和翻译的研究现状，来自微软亚洲研究院的魏芳芸进行了梳理总结，并将介绍一系列的性能最优的工作，包括连续手语识别，孤立手语识别，手语翻译，手语检索，手语数字人等。

在每个环节的主题报告结束后，在环节主持人的组织下，讲者就研究细节、观众的问题等做出了进一步解答，并就计算机视觉领域在大模型时代的未来研究方向，以及不同研究者的定位给出了他们独到的见解。

在活动的午间时段，15 位来自各学校和研究机构的学者和同学进行了海报展示，在微软亚洲研究院张博和唐彦嵩的主持下，他们为线上和线下的观众介绍了自己最新的研究成果，展示了卓越的学术风采。

参会后，线上线下观众对本次活动给予了高度评价，认为活动开拓了他们对国际科技前沿趋势的认知，在与同行的想法碰撞中获得了新的科研灵感启发，并坚定了在科研道路上披荆斩棘的信心。

对于视觉领域有了更深的感悟和了解，对未来工作很有帮助！
对最新的研究进展有了更全面和深刻的理解~
马毅老师关于智能任务的闭环方法令我眼前一亮，视觉+手语识别也很有温度
我是 Poster 分享者，收获了很多对我作品的肯定，我非常珍惜。
对前沿研究的跟进与同行之间的 idea 碰撞很有价值！

路漫漫其修远兮，吾将上下而求索。2023 年的 CVPR 分享会虽落下帷幕，但计算机视觉领域的探索依然在继续。让我们继续共同携手，打造顶级学术交流平台，点亮人类群星闪耀时刻，共同推进计算机视觉领域的科技进步！