新闻中心

排序方式

系统调研450篇文献,微软亚洲研究院推出超详尽语音合成综述

语音合成一直以来是语言、语音、深度学习及人工智能等领域的热门研究方向,受到了学术界和工业界广泛的关注。尽管语音合成技术的研究已有几十年的历史,基于神经网络的语音合成技术也有近十年历史,且已产出了大量的优质研究成果,但针对神经语音合成不同研究方向的整合型综述论文却十分匮乏。近日,微软亚洲研究院的研究员们通过调研了450余篇语音合成领域的文献,发表了迄今为止语音合成领域几乎最详尽的综述论文 “A Survey on Neural Speech Synthesis”。在文中,研究员们还整理收集了语音合成领域的相关资源如数据集、开源实现、演讲教程等,同时也对语音合成领域未来的研究方向进行了探讨和展望。希望本文能对相关工作的研究人员提供具有价值的参考。

发布时间:2021-08-10 类型:深度文章

基于Transformer的高效、低延时、流式语音识别模型

Transformer 模型在自然语言领域被提出后,目前已经扩展到了计算机视觉、语音等诸多领域。然而,虽然 Transformer 模型在语音识别领域有着更好的准确率,但在流式的语音识别场景下,Transformer 模型的速度和延时往往阻碍其实际的应用。为了解决这个问题,微软 Azure 语音团队与微软亚洲研究院的研究员们一起提出了一套结合 Transformer 家族的编码器和流式 Transducer 框架的解决方案,并提出了 Mask is all you need 的方法对模型进行快速训练以及解码,让 Transformer 模型能够在普通的计算设备上进行快速的语音识别。

发布时间:2020-12-30 类型:深度文章

带你读论文 | 端到端语音识别模型

本文将通过六篇论文,从建模方法、响应时间优化、数据增强等不同方面讲解端到端语音模型的发展,并探讨不同端到端语音识别模型的优缺点。

发布时间:2020-11-17 类型:深度文章

FastSpeech语音合成系统技术升级,微软联合浙大提出FastSpeech2

基于深度学习的端到端语音合成技术进展显著,但经典自回归模型存在生成速度慢、稳定性和可控性差的问题。去年,微软亚洲研究院和微软 Azure 语音团队联合浙江大学提出了快速、鲁棒、可控的语音合成系统 FastSpeech,近日研究团队又将该技术升级,提出了 FastSpeech 2 和 FastSpeech 2s,在提升语音合成质量的同时,大大简化了训练流程,减少了训练时间,加快了合成速度。

发布时间:2020-06-23 类型:深度文章

2020开年解读:NLP新范式凸显跨任务、跨语言能力,语音处理落地开花

2020年伊始,我们总结、展望了微软亚洲研究院在多个 AI 领域的突破与趋势,比如,更亲民的机器学习和更精巧的 AI 系统;数据洞察的获得变得更智能,AI 推进三维构建的发展;以及突破固化的计算机视觉和更具商用价值的 OCR 引擎。今天,我们将探索自然语言处理(Natural Language Processing,NLP)范式的新发展,以及微软亚洲研究院在语音识别与合成领域的创新成果。

发布时间:2020-01-17 类型:深度文章

速度提升270倍!微软和浙大联合推出全新语音合成系统FastSpeech

目前,基于神经网络的端到端文本到语音合成技术发展迅速,但仍面临不少问题——合成速度慢、稳定性差、可控性缺乏等。为此,微软亚洲研究院机器学习组和微软(亚洲)互联网工程院语音团队联合浙江大学提出了一种基于Transformer的新型前馈网络FastSpeech,兼具快速、鲁棒、可控等特点。与自回归的Transformer TTS相比,FastSpeech将梅尔谱的生成速度提高了近270倍,将端到端语音合成速度提高了38倍,单GPU上的语音合成速度达到了实时语音速度的30倍。

发布时间:2019-05-30 类型:深度文章