排序方式

像编辑文本一样编辑语音,可能吗?

编者按:如今在各种社交网络平台上发布的视频,因拍摄便捷、可实时分享、互动交流等特点而深受大众喜爱。视频深刻影响和改变了人们观察世界、记录生活和表达情感的方式。然而,现在市面上许多视频或音频剪辑软件为了满足用户需求尽管拥有丰富的功能,但操作却很复杂,很多简单的剪辑任务都还需要在软件中逐帧对照确定剪切时间点。对于以语音为主要背景声音的视频,如线上会议录像、演示视频、vlog 等,如果我们能通过编辑文本的形式,直接编辑音视频中的语音内容,让音视频的编辑自动根据文本完成,那么将大大降低音视频的编辑难度,提高创作者的效率。为此,微软亚洲研究院的研究员们研发了一个基于文本的语音编辑系统。本文将详细介绍这个基于文本的语音编辑系统和研究员们研发的语音合成及填充词检测技术。

发布时间:2022-09-15 类型:深度文章

NaturalSpeech模型合成语音在CMOS测试中首次达到真人语音水平

编者按:AI 合成语音如今已经屡见不鲜,然而在用户听来却不能让人产生与真人对话和阅读般的沉浸感。不过,微软亚洲研究院和微软 Azure 语音团队近日联合推出的全新端到端语音合成模型 NaturalSpeech,在 CMOS 测试中首次达到了真人说话水准。这将近一步提升微软 Azure 中合成语音的水平,让所有合成声音都惟妙惟肖。

发布时间:2022-06-10 类型:深度文章

如何亿点点降低语音识别跨领域、跨语种迁移难度?

编者按:随着深度学习的不断发展,语音识别技术得到了极大的提升,同时为人们的日常生活提供了许多便利。然而,一个语音模型的训练并非易事,因为语音数据天然存在着获取难、数据标注耗时昂贵的问题,而且还会面临模型漂移、标注数据不足等难题。因此,迁移学习技术对于语音数据非常重要。为了解决语音识别的跨领域和跨语言问题,微软亚洲研究院机器学习组和微软(亚洲)互联网工程院提出了跨领域和跨语言语音识别的 CMatch 和 Adapter 方法。这两项技术是如何提升模型迁移学习性能的?他们又利用了哪些创新技术?让我们从今天的文章中来获得答案吧。

发布时间:2022-03-31 类型:深度文章

语音识别的快速纠错模型FastCorrect系列来了!

编者按:语音识别支持着许多生活中的常见服务,比如手机端的语音转文字功能、视频网站的字幕自动生成等等。但语音识别模型往往并不完美,需要纠错模型来纠正语音识别中的错误。目前,大部分纠错模型采用了基于注意力机制的自回归模型结构,虽然能够提升语音识别的准确率,但是延迟较高,这也成为了纠错模型在实际应用中的瓶颈。一个直接的做法是利用非自回归模型来提升速度,但是简单利用当前的非自回归模型不能降低错误率。为此,微软亚洲研究院机器学习组与微软 Azure 语音团队合作,推出了 FastCorrect 系列工作,提出了低延迟的纠错模型,相关研究论文已被 NeurIPS 2021 和 EMNLP 2021 收录。

发布时间:2022-03-22 类型:深度文章

通用模型、全新框架,WavLM语音预训练模型全解

编者按:深度神经网络模型近年来虽然在各项语音任务上都有所进展,但却仍依赖于大量的标注数据。而自监督训练方法的出现和发展则在一定意义上缓解了该问题。近日,微软亚洲研究院与微软 Azure 语音组的研究员们在判别式自监督预训练方法的基础上,沿用研究院自然语言计算组在自然语言预训练的 Transformer 模型架构,提出了全新的 Denoising Masked Speech Modeling 框架。通过94,000小时的英语语音进行预训练,通用语音预训练模型 WavLM 在 SUPERB 所有13项语音任务测评中超过先前所有模型,排名第一,并在其它4个不同的语音经典测评数据集上都取得了很好效果。

发布时间:2021-12-23 类型:深度文章

系统调研450篇文献,微软亚洲研究院推出超详尽语音合成综述

语音合成一直以来是语言、语音、深度学习及人工智能等领域的热门研究方向,受到了学术界和工业界广泛的关注。尽管语音合成技术的研究已有几十年的历史,基于神经网络的语音合成技术也有近十年历史,且已产出了大量的优质研究成果,但针对神经语音合成不同研究方向的整合型综述论文却十分匮乏。近日,微软亚洲研究院的研究员们通过调研了450余篇语音合成领域的文献,发表了迄今为止语音合成领域几乎最详尽的综述论文 “A Survey on Neural Speech Synthesis”。在文中,研究员们还整理收集了语音合成领域的相关资源如数据集、开源实现、演讲教程等,同时也对语音合成领域未来的研究方向进行了探讨和展望。希望本文能对相关工作的研究人员提供具有价值的参考。

发布时间:2021-08-10 类型:深度文章

基于Transformer的高效、低延时、流式语音识别模型

Transformer 模型在自然语言领域被提出后,目前已经扩展到了计算机视觉、语音等诸多领域。然而,虽然 Transformer 模型在语音识别领域有着更好的准确率,但在流式的语音识别场景下,Transformer 模型的速度和延时往往阻碍其实际的应用。为了解决这个问题,微软 Azure 语音团队与微软亚洲研究院的研究员们一起提出了一套结合 Transformer 家族的编码器和流式 Transducer 框架的解决方案,并提出了 Mask is all you need 的方法对模型进行快速训练以及解码,让 Transformer 模型能够在普通的计算设备上进行快速的语音识别。

发布时间:2020-12-30 类型:深度文章

带你读论文 | 端到端语音识别模型

本文将通过六篇论文,从建模方法、响应时间优化、数据增强等不同方面讲解端到端语音模型的发展,并探讨不同端到端语音识别模型的优缺点。

发布时间:2020-11-17 类型:深度文章