语音识别技术里程碑:错误率降至5.1%,超过专业速记员

2017-08-22 | 作者:微软亚洲研究院

编者按:语音识别是众多研究团队和企业正在努力攻克的技术高地,有关识别准确率的竞争和比较从未停止。去年,微软率先实现语音识别系统5.9%的低错误率,在Switchboard对话语音识别任务中已经达到人类对等的水平。

最近,微软语音和对话研究团队负责人黄学东宣布微软语音识别系统错误率进一步降低到5.1%,此次突破堪称是语音识别行业新的里程碑,准确率超过专业速记员。本文译自“Microsoft researchers achieve new conversational speech recognition milestone”,查看论文

 


 

8月20日,微软语音和对话研究团队负责人黄学东宣布微软语音识别系统继微软对话语音识别技术达至人类专业水平,开启人工智能新征程之后再次取得重大突破,错误率由5.9%进一步降低到5.1%,可与专业速记员比肩。此次突破大幅刷新原先记录,并在语音识别行业树立新的里程碑。

在微软转录系统达到5.9%的错误率之后,其他研究人员在此基础上分别进行研究,采用了更多参与的多转录程序,成功在语音识别准确性道路上更进一步。

这两次研究转录的都是Switchboard语料库中的录音,Switchboard是一个电话通话录音语料库,自上世纪90年代以来一直被研究人员作为测试语音识别系统的样本。语音识别测试任务包括对陌生人对话交流中的不同话题,比如体育和政治方面的讨论,进行从语音到文字的转录。

研究人员通过改进微软语音识别系统中基于神经网络的听觉和语言模型,在去年基础上降低了大约12%的出错率,同时引入了CNN-BLSTM(convolutional neural network combined with bidirectional long-short-term memory,带有双向LSTM的卷积神经网络)模型,用于提升语音建模的效果。并且,系统中以前就在使用的从多个语音模型进行综合预测的方法,如今在帧/句音级别和单词级别下都可以发挥效果。

除此以外,研究人员还对整个对话过程进行历史记录分析,预测接下来可能会发生的事情,进一步加强识别器的语言模型,使其能够有效适应对话话题和语境的快速转变。

微软认知工具包Microsoft Cognitive Toolkit 2.1(CNTK)在研究过程中表现突出,研究人员充分利用CNTK探索模型架构和优化模型的超参数。此外,微软对云计算基础设施(特别是Azure GPU)的投资,也帮助提升了训练模型、测试新想法的效果和速度。

实现识别准确率上的“人类对等”是语音识别领域过去25年来一直奋力追求的研究目标,微软始终坚持深耕语音识别,并力争将新技术最快、最好地运用到Cortana、Presentation Translator、Microsoft Cognitive Services等微软产品和服务中,让用户能够亲身体验新技术的魅力。微软的研究团队非常高兴可以看到每天有数百万的用户在使用这些产品,未来将更加努力,创造出更具突破性的工作成果。

Presentation Translator:利用语音识别实现多语言观众实时翻译演示文稿

在语音识别领域,业界和学术界有许多研究团队都有重大进展,微软研究团队在行业的整体发展下同样获益良多。尽管目前在Switchboard 语音识别任务中实现了5.1%的低错误率,事实上语音研究领域仍然挑战重重,例如嘈杂环境、录音距离较远场景下的语音识别,方言识别,有限训练数据条件下的语音识别或较少人使用的语言的语音识别,这些距离达到人类相近水平还相差甚远。而且,计算机学会将语音转换为文字并非语音识别的终点,让计算机能够理解其中的含义和目的才是道阻且长。从语音识别到话语理解,将会是语音相关技术的下一个重要前沿。