科研系列讲座｜直播：面向语音和文本的跨模态预训练方法研究

2023-02-03 | 作者：微软亚洲研究院

微软亚洲研究院科研系列讲座第二期，将于 2 月 6 日（下周一）下午 14:00-15:00 与你相见，为你带来以 “面向语音和文本的跨模态预训练方法研究” 为主题的分享！

如何弥合语音和文本之间的模态差异，实现两者的无缝转换，是构建多模态通用基础模型的关键，对于语音语言理解任务（如说话人识别、情感分析等）和语音语言转换任务（如语音识别、语音翻译和语音合成等）至关重要。在探索语音语言联合预训练的道路上，微软亚洲研究院与微软云计算平台 Azure 语音组的研究员们先后提出了语音和文本联合预训练的编码器解码器框架 SpeechT5、采用隐藏单元连接语音编码器和文本解码器的预训练模型 SpeechUT、文本数据增强的语音预训练模型 SpeechLM、和视觉-语音-文本联合预训练的语音表示模型 VATLM，努力打通语音文本之间的模态和语言壁垒。

本期讲座，微软亚洲研究院自然语言计算组主管研究员周龙将介绍该系列论文及其背后的科研探索故事，届时请锁定 B 站 “微软科技” 直播间！

直播信息

直播地址：B 站 “微软科技” 直播间
https://live.bilibili.com/730

直播时间：2 月 6 日（下周一）14:00 - 15:00

扫码或点击 “阅读原文” 直达直播间

讲座信息

语音和文本两种不同的模态，是人类语言的不同表现形式。尽管语音和文本有着巨大的模态差异，他们却也有着千丝万缕的关系。建立统一的多模态通用基础模型是未来的发展趋势，语音和文本作为两种有着天然对应关系的模态，理应得到首要的关注。也只有充分理解人类的语音和语言，完全消除语音和语言的模态差别，才能真正走向通用人工智能。

随着自监督表征学习分别在自然语言处理和语音处理领域取得了显著进展，研究者们开始关注语音和文本的联合预训练方法。近日，微软亚洲研究院与微软 Azure 语音组的研究员们在单模态预训练方法的基础上，提出了一系列语音语言联合建模方法，比如SpeechT5、SpeechUT、SpeechLM 和 VATLM。这些联合预训练模型为搭建语音和语言之间的桥梁迈出一步，在多种下游任务中取得了当前最优的性能。相关论文已被 ACL 2022、EMNLP 2022 等会议接收。在本次讲座中，论文作者将首先概览不同模态大一统的趋势，随后介绍该系列工作，最后进行总结和展望。

论文标题

Unified Speech and Text Pre-Training
面向语音和文本的跨模态预训练方法研究

论文亮点

提出了首个统一语音模态和文本模态的编码器-解码器框架 SpeechT5，该框架将所有的口语语言处理任务转化为序列到序列的任务形式。
首次提出使用共享的隐藏单元来显性地连接语音编码器和文本解码器，使得 SpeecUT 可以将语音到文本的任务分解为语音到隐藏单元的子模型，和隐藏单元到文本的子模型。
SpeechLM 在 LibriSpeech 语音识别数据集上仅仅使用少量文本数据（10K个句子），显著地超越了之前的 SOTA 模型。
VATLM 设计了一个统一的框架来整合不同的模态信息（如视觉、音频和文本），并利用不同的语料库（如视觉-音频语料对、音频-文本对、无标注的语音和文本）来促进语音表示学习。

讲者信息

于中科院自动化所模式识别国家重点实验室获得博士学位。主要从事自然语言处理，语音处理领域的研究工作，研究方向包括机器翻译、语音识别、语音合成、和预训练方法。在国际著名期刊和会议 AIJ、TACL、ACL、EMNLP、AAAI、IJCAI、ICLR、NeurIPS 等发表论文三十余篇，Google Scholar 引用 1200 余次。博士论文获得中文信息学会优秀博士学位论文提名奖。曾获得国际自然语言处理与中文计算会议 NLPCC2017 唯一最佳论文奖。

博士生导师为杨征路教授与周明教授。研究方向为语音预训练，语音识别和语音翻译。自 2019 年起在微软亚洲研究院自然语言计算组实习，博士期间曾经在 ACL,ICML,AAAI, ICASSP 和 InterSpeech等国际会议上发表过 15 篇论文。论文曾在InterSpeech2020 上被提名为最佳学生论文。博士期间多次获得校一等奖学金，获得国家奖学金以及微软学者提名。

关于微软亚洲研究院科研系列讲座：

为了分享前沿创新学术成果、展望实际应用前景，微软亚洲研究院全新推出科研系列讲座，通过线上直播的形式邀请研究员分享其获得国内外顶尖学术会议认可的研究成果。我们希望通过介绍优秀研究员的杰出工作和科研方法论，开拓和激发大家的学术思维，启发更多人的科研之路。

科研系列讲座｜直播：面向语音和文本的跨模态预训练方法研究

关注微软亚洲研究院