CVPR 2023 论文分享会讲者公开，邀你一起攀登科技“瞭望塔”！

2023-04-03 | 作者：微软亚洲研究院

4 月 15 日，微软亚洲研究院创研论坛 - CVPR 2023 论文分享会，邀你一起攀登科技“瞭望塔”！

本次分享会将主要聚焦于以下三个领域的深度交流——

视觉生成（Visual Generation）
视觉基础模型（Visual Foundation Model）
视觉 + X（Visual + X）

今年，我们邀请到 15 位优秀的学者，同大家分享他们最新的研究成果。此外，还有重量级嘉宾将带来主旨报告、参与圆桌讨论，惊喜不断，敬请期待！

在这里，让我们一起审视视觉领域的新兴趋势，拓宽国内计算机视觉领域的认知视野。欢迎扫描后文二维码报名参与！

活动信息

活动名称：微软亚洲研究院创研论坛-CVPR 2023 论文分享会

活动时间：2023 年 4 月 15 日

活动地点：北京市海淀区丹棱街 5 号微软大厦

主办单位：微软亚洲研究院

承办单位：微软智能信息处理西安交通大学实验室

协办单位：中国计算机学会计算机视觉专委会、中国图象图形学学会视觉大数据专委会、中国自动化学会共融机器人专业委员会、中国计算机学会女计算机工作者委员会、中国图象图形学学会女科技工作者工作委员会

活动讲者

（按分享顺序）

- Session 1 -

视觉生成 Visual Generation
（13:30-15:00）

报告题目：探索无文本参与训练的文本驱动图像编辑技术

报告摘要：文本驱动的图像编辑在训练或推理灵活性方面仍然具有挑战性。条件生成模型在很大程度上依赖于昂贵的训练数据标注。为了解决这类问题，我们提出了一种无文本参与训练下的文本驱动图像编辑方法，主要思路是通过研究和识别一个隐空间，即图像和文本差值空间，能在两幅图像的 CLIP 视觉特征差异和源文本和目标文本的 CLIP 文本嵌入差异之间具有良好的对齐分布特性。这种新的网络空间映射方式可以从 CLIP 文本特征的差异中预测 StyleGAN 的编辑方向，从而使得生成网络模型可以一种无文本的方式进行训练和编辑，并且通过合理的预训练泛化到各种文本驱动的编辑任务上。实验证明，我们的方法具有优异的性能，同时在训练和推理方面具有更好的灵活性。

报告题目：基于多模态扩散模型的联合音视频生成

报告摘要：本文提出了一个联合音视频生成的多模态扩散模型——MM-Diffusion，该方法可以同时生成匹配的音频和视频，带来相对单模态更加吸引人的观看和聆听体验。为了生成联合音视频对，本文提出的模型具有两个耦合的去噪自动编码器，分别处理音频和视频两个模态。为了确保模态之间的语义一致性，本文提出了一种基于随机移位的注意力模块桥接两个子网，能够实现有效的跨模态对齐，从而增强生成结果的保真度。大量实验表明，在无条件音视频生成和零样本条件生成任务下，本文提出的方法取得了优异的结果。

代码和模型将于近期开源：https://github.com/researchmm/MM-Diffusion。

报告题目：用一个解耦扩散模型统一版面生成

报告摘要：版面生成在实际使用场景中具有复杂多变的需求，如无条件生成，对缺失版本信息补全，对粗糙版面设计优化等等。我们将众多生成式需求统一建模成一个逆扩散过程的不同状态，训练一个扩散生成模型同时支持无条件和基于不同信息的条件化生成。在此模型中，我们创新性地提出“先解耦再扩散”的建模思想，提高了扩散生成模型的训练效率和生成质量，使版面生成结果兼具结构合理性和视觉美观性。该思想具有应用于其它媒体数据生成的潜力。

报告题目：基于扩散模型的高质量 3D 数字人建模方法

报告摘要：深度生成模型已对图像设计领域带来深刻变革，而如何构建高质量 3D 生成模型依然具有许多研究挑战。这个报告将介绍我们在这个领域的最新研究进展。我们将介绍 RODIN 模型，将生成扩散模型拓展于 3D 数字人生成，通过若干技术简化 3D 肖像的计算复杂度，高效生成可 360 度自由视角观察的数字人形象。我们的方法大幅提升了现有 3D 生成技术的生成质量，且支持基于头像、语言等多模态输入来生成个性化结果。该方法不仅为传统数字人建模带来了效率提升，更有望应用于通用 3D 物体生成。

- Session 2 -

视觉基础模型 Visual Foundation Model
（15:00-16:30）

报告题目：基于元学习的广义零样本类增量学习方法

报告摘要：广义零样本学习（GZSL）旨在识别在训练中不可见的未知类，同时保持已知类识别能力。朴素 GZSL 任务设置不能处理随时间动态添加新的已知和未知类别的情况。为解决此问题，我们提出一种更实用同时更具挑战性的任务设置，称为广义零样本类别增量学习，要求模型在增量阶段不新增任何标注样本情况下，实现已知类识别性能保持与未知类泛化。针对此任务设置，设计了一种基于双层嵌套优化的元学习方法，显式指导网络模型学会如何增量学习。

报告题目：提示、生成、缓存：基础预训练模型的合作能显著增强小样本学习性能

报告摘要：小样本情况下，视觉识别需要神经网络从有限的训练样本中学习泛用表征。基于 CLIP 的方法受益于语言-图像对比预训练，展现出优异的小样本性能。我们对此进一步拓展：我们提出 CaFo，它通过“提示，生成，缓存”的工作流程结合了多种预训练范式的多样化先验知识，包括 CLIP 的语言对比知识、DINO 的视觉对比知识、DALL-E 的视觉生成知识和 GPT-3 的语言生成知识。通过这种协作，CaFo 可以充分释放不同预训练方法的潜力，在小样本分类任务上达成 SOTA。

报告题目：无令牌混合器的视觉骨干网络设计

报告摘要：本论文研究了如何在去除基本构建模块中的令牌混合器（Token Mixer）的同时保持视觉骨干网络的有效性。令牌混合器，作为 Vision Transformer 结构中的重要模块，主要用于在不同的空间令牌之间执行信息交互，它会产生相当大的计算成本和延迟。然而，直接删除它们将导致模型产生显著的精度下降。为此，我们首先基于重新参数化的思想开发了一个名为 RIFormer 的基础架构，用于研究无令牌混合器的模型架构。本论文中，我们探索了通过改进学习范式以打破简单的无令牌混合器的视觉骨干模型的限制，并将具体探索实践总结为 5 个准则。基于我们所提出的优化策略，我们能够构建一个极其简单的无令牌混合器的视觉骨干架构，它拥有具有竞争力的性能，同时在推理期间具有较高的推理效率。我们进一步也开展了广泛的实验和消融分析，这些分析表明，网络架构的归纳偏差可以通过适当的优化策略纳入简单的网络结构中。我们希望此项工作能够成为探索优化驱动的高效网络设计的起点。

报告题目：自监督学习的理论理解

报告摘要：自监督学习（Self-Supervised Learning）作为一种无需人工标注的无监督学习方法，在多种任务上取得了优异的表现，成为近期一些列重要工作（CLIP，ChatGPT）中的核心技术之一。本报告将以自监督学习中常见的两种学习范式——对比学习（Contrastive Learning）和掩码学习（Masking Modeling）为例，探究自监督学习背后的工作机理，从理论视角分析其优化过程和下游泛化能力，期望为自监督学习的算法设计提供一些新的见解。

报告题目：CLIP-ViP：基于图像语言预训练模型的视频语言表征学习

报告摘要：图像语言预训练模型（如 CLIP）已经展示出了从大量网络收集的数据中学习到的视觉语言表征的强大能力，如何有效的利用已有的图像语言预训练模型进行视频语言预训练仍处于探索阶段。在这篇工作中，我们研究了两个问题：1）阻碍已有工作中利用 CLIP 进行视频语言任务性能的因素是什么？2）如何减轻这些因素的影响？通过实验分析，我们发现数据规模以及领域差距有很大的影响。因此，我们提出了一种基于 CLIP 的配备视频代理机制的 Omnisource 跨模态学习方法，即 CLIP-ViP，极大提升了 CLIP 在视频文本检索上的性能。

目前代码、模型和数据都已公开：https://github.com/microsoft/XPretrain/tree/main/CLIP-ViP。

报告题目：MaskCLIP: Masked Self-Distillation Advances Contrastive Language-Image Pretraining

报告摘要：本文提出了一个简单而有效的框架 MaskCLIP，它将新提出的 masked self-distillation 结合到对比语言图像预训练中。Masked self-distillation 的核心思想是将完整图像的表示提取为从掩码图像预测的表示。这种合并有两个重要的好处。首先，masked self-distillation 以局部块表示学习为目标，这与专注于文本相关表示的视觉-语言对比是互补的。其次，从训练目标的角度来看，masked self-distillation 也与视觉-语言对比一致，因为两者都利用于特征对齐的视觉编码器，因此能够学习从语言间接监督的局部语义。我们提供专门设计的实验和综合分析来验证这两个好处。根据经验，当 MaskCLIP 应用于各种具有挑战性的下游任务时，在语言编码器的指导下，在 linear probing、fine-tuning 以及 zero-shot 性能方面取得了优异的结果。

- Session 3 -

视觉 + X Visual + X
（16:30-18:00）

报告题目：基于语义条件扩散模型的图像描述生成网络

报告摘要：该工作针对图像描述生成任务提出一种新颖的基于扩散模型的设计范式—语义条件扩散网络（SCD-Net）。它首先利用跨模态检索模型搜索与输入图像语义相关的句子，以此作为语义条件触发语言描述的扩散模型。此外利用级联的扩散结构逐步优化模型，实现视觉语言的跨模态对齐和生成语句的连贯。最后针对扩散模型设计了一种新的强化训练策略，以此强化 SCD-Net 的训练。通过在 COCO 标准数据集上进行的大量实验证明了使用扩散模型解决图像描述生成任务的潜力。

报告题目：端到端自动驾驶算法设计思考

报告摘要：自动驾驶的目的是提高最终的驾驶性能，而广泛应用的模块化工程中，任务被拆解独立，难以传递丰富的高维信息并保证最终表现。而传统的端到端自动驾驶网络疏于可解释性表达，如果将自动驾驶的多任务合理构建为一个端到端网络至关重要。因此，我们提出了一套以最终任务为导向，多模块联合优化的端到端自动驾驶方案，其可以充分发挥数据驱动的系统性优势，达到了感知、预测、决策多个任务结合的最优解。

报告题目：跨时空上下文蒸馏的连续手语识别

报告摘要：连续手语识别中空间感知模块往往训练不充分。实证研究表明浅层时间聚合模块可以影响空间感知模块训练。然而，浅层时间聚合模块又不能很好地捕捉手语多尺度时序信息。为解决上述矛盾，提出跨时空上下文聚合方案，即建立一个双路径网络分别感知局部时空和全局时空上下文；同时设计一个跨上下文知识蒸馏学习目标，以聚合两种时空信息和语言先验。知识蒸馏后的单分支浅层时空聚合模块，能够感知上下文信息同时利于空间感知模块训练。

报告题目：FLAG3D: A 3D Fitness Activity Dataset with Language Instruction

报告摘要：随着人们在保持健康，缓解压力等方面的需求日益增长，健身运动分析已经成为计算机视觉领域的一个新兴研究课题。在这个领域内，一系列的新任务和算法被不断提出，对高质量数据、细粒度标签和多样化环境资源的需求也在日益增长。在本文中，我们提出了 FLAG3D，这是一个具有语言指令的大规模三维健身运动数据集，它包含了 60 个类别的 180K 健身运动序列，并具有以下三个方面的特点：1）从先进的动作捕捉系统中捕捉到的精准而密集的 3D 人体姿势，以处理复杂的人体姿态；2）详细而专业的语言指导，以描述如何进行特定的活动；3）来自不同环境下的数据，包括动作捕捉系统、渲染软件和在自然环境中用手机拍摄的视频。广泛的实验和深入的分析表明，FLAG3D 对跨域人体动作识别、动态人体形态恢复，以及语言引导的人类动作生成等各种挑战具有巨大的研究价值。

报告题目：手语识别与翻译

报告摘要：在深度学习时代，语音识别和机器翻译获得了巨大的成功。手语，作为一门以视觉信号为载体的自然语言，由于数据的稀缺和昂贵的标注代价，仍然处于不成熟的研究阶段。本报告针对当前手语识别和翻译的研究现状进行了总结，并且介绍一系列的性能最优的工作，包括：连续手语识别，孤立手语识别，手语翻译，手语检索，手语数字人。

观众报名

请 扫描二维码 填写您的个人信息完成报名
报名截止日期：4 月 9 日

我们将在截止日后开始通知入选情况，
请届时密切关注邮箱和手机短信
并及时回复！

关于 CVPR 论文分享会

计算机与模式识别会议（CVPR）是由 IEEE 和 CVF 联合举办的国际学术会议，是计算机视觉领域三大顶级会议之一。今年，CVPR 2023 将于 6 月中旬在加拿大温哥华召开。

近年来，CVPR 的论文投稿量持续增加，几乎每年都保持了 10% 以上的增幅——从 CVPR 2019 的 5160 篇有效投稿增长到 CVPR 2020 年的 6656 篇，到 CVPR 2021 的 7500 篇，再到 CVPR 2022 的 8161 篇；而今年又再创新高，达到了 9155 篇，较 CVPR 2022 增加了 12%。此外，今年有 2360 篇投稿被该会议接收，接收率高达 25.78%。

为促进领域内的学术交流和发展，微软亚洲研究院创研论坛 CVPR 中国论文分享会自 2017 年开始举办，每年都会邀请计算机视觉优秀工作的作者分享其前沿研究。