新闻中心

排序方式

带你读论文 | 端到端语音识别模型

本文将通过六篇论文,从建模方法、响应时间优化、数据增强等不同方面讲解端到端语音模型的发展,并探讨不同端到端语音识别模型的优缺点。

发布时间:2020-11-17 类型:深度文章

KDD 2020 | LRSpeech:极低资源下的语音合成与识别

上周,清华大学硕士研究生、微软亚洲研究院机器学习组实习生徐进(指导研究员:谭旭)在 B 站分享了 KDD 2020论文“LRSpeech: Extremely Low-Resource Speech Synthesis and Recognition”。本次直播介绍了 LRSpeech 的相关技术,并分享了在构建极低资源语音合成与识别系统中的一些心得体会。

发布时间:2020-08-27 类型:深度文章

2020开年解读:NLP新范式凸显跨任务、跨语言能力,语音处理落地开花

2020年伊始,我们总结、展望了微软亚洲研究院在多个 AI 领域的突破与趋势,比如,更亲民的机器学习和更精巧的 AI 系统;数据洞察的获得变得更智能,AI 推进三维构建的发展;以及突破固化的计算机视觉和更具商用价值的 OCR 引擎。今天,我们将探索自然语言处理(Natural Language Processing,NLP)范式的新发展,以及微软亚洲研究院在语音识别与合成领域的创新成果。

发布时间:2020-01-17 类型:深度文章

对话黄学东:语音语言技术是镶在 AI 皇冠上的明珠

在微软研究院最新一期播客中,微软技术院士、微软首席语音科学家黄学东博士分享了语音与自然语言技术的最新动态。过去几年中,微软先后在newstest2017、SQuAD、CoQA等多个权威测试中率先使机器能力媲美人类水平,熟练掌握语音识别、翻译、对话的机器正在从“感知人工智能”转向“认知人工智能”,向着真正的人类智能迈进。

发布时间:2019-05-17 类型:深度文章

ICML 2019 | 微软提出极低资源下语音合成与识别新方法,小语种也不怕没数据了!

目前,人类使用的语言种类有近7000种,然而由于缺乏足够的语音-文本监督数据,绝大多数语言并没有对应的语音合成与识别功能。为此,微软亚洲研究院机器学习组联合微软(亚洲)互联网工程院语音团队在ICML 2019上提出了极低资源下的语音合成与识别新方法,帮助所有人都可以享受到最新语音技术带来的便捷。

发布时间:2019-05-15 类型:深度文章

语音研究进阶指南

作为人类最自然的交流方式,“听”和“说”包括了人类大脑皮层从听觉感知到语言处理和理解,再到声音生成这个“神奇”的认知过程。语音领域的探索和研究已经持续了长达150多年,从最初的电话通信到语音识别、语音合成、说话人识别等扩展应用, 研究内容涵盖了信号处理、统计学、模式识别、自然语言处理等交叉领域的知识和技能。

发布时间:2019-03-22 类型:深度文章

语音识别技术里程碑:错误率降至5.1%,超过专业速记员

8月20日,微软语音和对话研究团队负责人黄学东宣布微软语音识别系统继微软对话语音识别技术达至人类专业水平,开启人工智能新征程之后再次取得重大突破,错误率由5.9%进一步降低到5.1%,可与专业速记员比肩。此次突破大幅刷新原先记录,并在语音识别行业树立新的里程碑。

发布时间:2017-08-22 类型:深度文章

对话 | 俞栋:在人工智能的很多应用场景,语音识别是一个入口

​俞栋博士1998年加入微软公司,现任微软研究院首席研究员,兼任浙江大学兼职教授和中科大客座教授。语音识别和深度学习方向的资深专家,出版了两本专著,发表了160 多篇论文,是 60 余项专利的发明人及深度学习开源软件 CNTK(现已更名为微软认知工具包)的发起人和主要作者之一。

发布时间:2016-11-01 类型:深度文章

微软对话语音识别技术达至人类专业水平,开启人工智能新征程

一个月前,2016年9月14日,微软的对话语音识别技术在产业标准Switchboard语音识别基准测试中实现了词错率(word error rate, 简称WER)低至6.3%的突破 ,创造当时该领域内错误率最低纪录。一个月后,10月18日,微软进一步将词错率降低至5.9%,首次达成与专业速记员持平而优于绝大多数人的表现

发布时间:2016-10-19 类型:深度文章

错误率低至6.3%,微软新创语音识别里程碑

为了让计算机能像人类一样自然地听懂并理解语言,微软的研究员们在计算机语音识别和理解的技术上,又向前迈进了里程碑式的一大步。

发布时间:2016-09-14 类型:深度文章