来自夏威夷的最强"音"

2007-05-26 | 作者:微软亚洲研究院

 

来自夏威夷的报告

 

微软亚洲研究院语音组

 

    国际声学、语音学界在4月15日至20日的夏威夷奏起了一阵年度内该领域的最强音。由IEEE(美国电机与电子工程师协会)主办的
ICASSP(声学、语音、信号处理国际大会)在美国夏威夷的檀香山举行。本届大会共提交了2844篇论文,其中语音领域内的论文有672篇。同时,从大会通过的共1272篇论文情况而言,今年大会的论文录取率不到45%,相比较而言,评委们的评判尺度比往年略有提高。微软亚洲研究院语音组和互联网搜索与数据挖掘组分别有9篇和3篇论文被大会接受。在洪小文常务副院长的带领下,研究院共有8名研究员参加了此次学术大会。

 

    洪小文博士是国际著名的语音科学家,他在苹果公司、微软公司从事了多年的研究工作,在语音、自然语言处理、互联网搜索及帮助学习软件等方面做出了突出贡献。正是由于洪小文博士在“语音研究和产品开发中的杰出贡献”,IEEE(美国电器与电子工程师协会)在2007年初授予他院士荣誉。在本届ICASSP盛会上,洪小文博士与其他获奖学者被隆重授予了“院士”称号。此外,洪小文博士与黄学东博士、Alex
Acero博士等微软同事们曾合作撰写《Spoken Language Processing
》(《口语语音处理》)一书,他们用此书的全部收入专门为学生设立了一个在语音处理方面出国开会交流的补助资金。这次檀香山的ICASSP大会上,他们提供两名学生,一位来自美国麻省理工学院和另一位来自德国亚琛(Aachen)工业大学特殊开会资助。

 

    在这次大会上共进行了四场主题演讲,给我们留下了颇为深刻的印象和启发。其中,Qualcomm公司的创始人同时也是CDMA无线传输技术专利的持有者Irwin
Jacobs博士,做了一场关于“移动电话的无限应用与无处不在”为题的演讲。另外,来自东京工业大学的古井
(Furui)
教授回顾了语音识别领域半个世纪的研究里程。这两场演讲都从历史的角度,总结了无线通讯与语音识别的过去已有的成绩以及未来的挑战。

 

   
在语音合成方面,基于HMM(隐马可夫模型)的可训练语音合成技术成为了与会者关注的焦点,有相当多的论文探讨以HMM(隐马可夫模型)为基础的文语转换系统的发展空间,包括语音转换、说话表达模型等等内容。“统计参数化语音合成”专题就是与这个新技术相关的特别讨论会。相对而言,基于拼接合成的文语转换系统的论文数目在这届大会中相对减少。

 

   
在语音识别方面,在声学与语言模型上的区别培训仍然是一个研究热点。在这一领域内,研究者们创建起了更多的系统和算法结构,并且尝试了不同数据库的运行试验。有一位在IBM工作的研究员Povey博士所做的基于多个不同的学习方法标准的研究中,他把微软亚洲研究院语音组最新提出的方法——在区分性学习方法上的最小分歧(minimum
divergence)理论,跟其它的研究方法进行了对比。在会中,我们了解到了更多的关于语音文件提取研究的一些进展情况,特别是在互联网音频搜索,如Youtube、在线电视剧、在线讲座,以及其他很多被政府、社会、个人等不同对象需要的数字文档。其间,有些与会代表还分享了对音乐信号的搜索与提取、音乐节拍与旋律的分析等较为新颖的研究见解和学术兴趣。

 

   
更值得一提的是,在本届大会上,在微软亚洲研究院语音组实习的中国科技大学学生鄢志杰同学获得了最佳学生论文奖提名,进入到了最后九人角逐的名单中。在一个对外封闭的由三位评委组成的个人陈述环节中,鄢志杰以出色的表现最终获得了最佳学生论文奖以及300美元的奖金。与此同时,鄢志杰也是微软亚洲研究院评选出的2006年度亚太区“微软学者”之一。目前,他正在乔治亚理工学院进行短期的交流访问。

 

   
从2002年开始,对于我们组的大部分成员来说,这是第五次代表微软亚洲研究院出席ICASSP大会了。在这样一个人才荟萃的大会上,我们有机会与语音领域内国际最知名的科学家和研究人员进行对话和交流。与往年一样,许多高校和公司都不会错过在ICASSP大会现场“招兵买马”的良机,各式各样的求贤广告贴满了整个公告栏。其中,Google
公司贴了一张印有与会的六名研究员头像的海报,邀请感兴趣的与会者与他们中的任何一位沟通工作事宜。其他的包括东芝、Nuance等在内的来自美国、欧洲和日本等地区的大小公司都也都借大会人才云集之际招募各路专家。

 

来自夏威夷的最强

 

 (图片说明:微软亚洲研究院语音组研究员陈一宁在展台前给与会者进行讲解)

标签