如何亿点点降低语音识别跨领域、跨语种迁移难度?

编者按:随着深度学习的不断发展,语音识别技术得到了极大的提升,同时为人们的日常生活提供了许多便利。然而,一个语音模型的训练并非易事,因为语音数据天然存在着获取难、数据标注耗时昂贵的问题,而且还会面临模型漂移、标注数据不足等难题。因此,迁移学习技术对于语音数据非常重要。为了解决语音识别的跨领域和跨语言问题,微软亚洲研究院机器学习组和微软(亚洲)互联网工程院提出了跨领域和跨语言语音识别的 CMatch 和 Adapter 方法。这两项技术是如何提升模型迁移学习性能的?他们又利用了哪些创新技术?让我们从今天的文章中来获得答案吧。

发布时间:2022-03-31 类型:深度文章

语音识别的快速纠错模型FastCorrect系列来了!

编者按:语音识别支持着许多生活中的常见服务,比如手机端的语音转文字功能、视频网站的字幕自动生成等等。但语音识别模型往往并不完美,需要纠错模型来纠正语音识别中的错误。目前,大部分纠错模型采用了基于注意力机制的自回归模型结构,虽然能够提升语音识别的准确率,但是延迟较高,这也成为了纠错模型在实际应用中的瓶颈。一个直接的做法是利用非自回归模型来提升速度,但是简单利用当前的非自回归模型不能降低错误率。为此,微软亚洲研究院机器学习组与微软 Azure 语音团队合作,推出了 FastCorrect 系列工作,提出了低延迟的纠错模型,相关研究论文已被 NeurIPS 2021 和 EMNLP 2021 收录。

发布时间:2022-03-22 类型:深度文章

微软对话语音识别技术达至人类专业水平,开启人工智能新征程

一个月前,2016年9月14日,微软的对话语音识别技术在产业标准Switchboard语音识别基准测试中实现了词错率(word error rate, 简称WER)低至6.3%的突破 ,创造当时该领域内错误率最低纪录。一个月后,10月18日,微软进一步将词错率降低至5.9%,首次达成与专业速记员持平而优于绝大多数人的表现

发布时间:2016-10-19 类型:深度文章