走近最前沿的AI科研项目——台湾篇

2017-07-07 | 作者:微软亚洲研究院

编者按:继此前在北京举办了2017微软亚洲研究院“合作创·研”年会之后,微软亚洲研究院又在台湾宜兰举行了面向亚太地区高校和科研机构的“2017微软亚洲研究院学术日”交流活动。来自台湾、日本、新加坡、香港等亚洲地区的100位学者和科研人员,与微软亚洲研究院的研究员们共同分享了近年来双方合作研究项目的最新进展,并讨论、交换了最新想法,激励彼此取得的技术创新。

多年来,微软亚洲研究院一直与亚洲地区的学术界保持着密切的合作、交流,在诸多研究领域推进着计算机科学的发展。知识与数据挖掘研究探索着新的算法和工具;多媒体研究帮助用户与计算机间的交互和理解;软、硬件的革新为人机交互与智能机器人带来了巨大的革新与发展机会…… 我们希望深入了解身处的数字革命以及如何最有效地利用机会,共同为社会解决更为迫切的挑战。

在这里,我们选取了本次活动中三位学者,关于视频镜头分类、对话理解以及医用影像分析的演讲内容,与大家分享~

----------------------------------------------------------------------------------------------

视频镜头分类:走向音乐会/演唱会视频自动混搭剪辑的第一步

如今,不少年轻人在听音乐会/演唱会时,都喜欢用手机记录现场视频。回家后,再将录制的内容上传到社交网站或者视频网站。这样一来,网络上就会有很多从不同视角、不同位置拍摄的音乐会/演唱会视频片段。面对此现象,台湾中央研究院的研究人员参考了微软亚洲研究院梅涛等研究员的学术论文,希望通过一个音乐会/演唱会视频自动剪辑流程将网络上同一场演出的所有视频完整地整理出来。

什么是音乐会/演唱会视频自动剪辑流程?简单地说,就是将活动现场不同位置拍摄的视频转换成一个完整、无缝连接且高品质的音乐会/演唱会。该流程主要致力于解决以下几个问题:首先,视频杂乱无章,常常不完整,或有冗余;第二,由于视频未经处理,常令观赏者看不明白视频内容;第三,由于视频是用手机拍摄,需要对声音、视频进行后期处理,以提升质量。而这其中,第三点最为重要。

为了打动观众,优秀的音乐会/演唱会导演经常会利用不同角度、不同距离拍摄的镜头,以尽可能地展现丰富的艺术感、传递情感和理念。不同类型的镜头是电影语言中的基本元素,在电影语言的教科书里,共定义了6种镜头类型。但在音乐会/演唱会的视频中进行镜头分类却十分具有挑战性。

为此,台湾中央研究院的研究人员提出了一种新的基于概率的方法,称为连贯分类网络(CCNet),通过解决三个关键问题来处理这一难题。首先,重点学习从深层卷积神经网络中提取的分层输出,并通过对大规模数据集进行预先训练,以获得更有效的特征。其次,研究人员提出了一种帧间分类的方案,即基于误差加权深度相关模型(error weighted deep cross- correlation model,EW-Deep-CCM),提高了分类精度。具体而言,通过构建基于神经网络的相关模型(Deep-CCM),不仅独立地提取了深层卷积神经网络的特征层次,还考虑了不同层配对特征的统计依赖关系。然后,采用贝叶斯分类器结合的误差加权方案,探索个体Deep-CCM分类器在提高每一镜头分类精度的贡献。第三,将帧分类结果反馈到线性链条件随机场(CRF)模块中,通过考虑全局和时间规律来改进镜头预测。

目前,台湾中央研究院的研究人员已经在现场音乐会/演唱会的视频数据集上进行了实验,广泛的实验结果证明了在当前流行的融合方法下所提出的CCNet方法的优点。未来,台湾中央研究院将继续处理多重音轨接合( Multiple audio sequence alignment) 及遵守电影语言规则的融合技术。同时,也期待双方的进一步合作。

人工智能的终极挑战——理解对话

从“2001太空漫游”里的哈尔,到“星球大战”中的C3PO、“星际迷航: 下一代” 中的Data,再到“Her(她)”中的萨曼莎,在电影中人们早已开始设想与计算机进行自然语言的对话。然而,真正自然语言对话理解的实现则需要:强大的语音识别能力,自然语言的理解以及情感意识等。

语言能力是人类的重要技能之一,语言让我们能够互相交流,包括了丰富的内容,并且可以反映出说话者的年龄、性别、学术背景、生理特征、心理活动、感情、态度等等。因此,人机对话也需要反映出对话双方内在的信息,比如根据所谈论的知识深度动态调整谈话内容等。这其中,微软亚洲研究院和香港中文大学的研究人员重点探索了自动识别非母语语音的交互式语言学习系统,并尝试通过发音训练,寻找正确的回复。

长期以来,包括MIT在内的许多机构及专家,在第二语言习得(SLA)领域已有大量研究,美国语言学家Robert Lado在他的著作《跨文化语言学》中提出,学习者的母语是第二语言习得中的主要障碍,母语和目的语之间的差异与其可导致的困难之间成正比,差异越大,难度越大。而英国著名应用语言学家S.P.Corder提出的错误分析理论,认为学习者的错误中有25%左右可以归结为母语知识负迁移的结果,错误分析具有重要意义,它是认识语言、学习过程的向导。

在该研究项目中,微软亚洲研究院和香港中文大学的研究人员把语音分成了六类,先看关键词,然后看关键词中的重音,再看重音之前和重音之后的语音,以及在关键词之前和之后的语音,从而区分出关键词和普通词,这个过程非常重要。

通过目前语言实验室里正在研究的系统,学生可以在任何时间练习他们的发音,查询他们想要练习的词汇,然后录下自己的发音,系统就会自动评判,并标记出不对的发音。同时,研究人员还借助“目标说话者”,提供个性化的交谈方式,方便人机互动。

面向未来的医用影像分析

医用影像分析主要包括三个部分:设备的发展、数据分析和云计算。国立台湾大学和微软亚洲研究院的研究合作项目就旨在将设备(特别是医用影像设备)发展与大数据分析两者结合起来,以提供更好的设备为更多人提供优质医疗服务。

敏捷的设备可以制作出优质的图像,而优质的图像则可以产生优质的数据。要想一台设备可以提供优质的医学影像,并能在各种环境下正常工作,那么该设备必须是可移动的、具有强大的性能且可编程。因此,可移动性、性能、可编程是提供高品质医学影像的设备所需的三大主要特征。

怎样从图像中提取用于分析的数据呢?研究人员利用计算机辅助检测及分析技术,从一个高品质医用影像开始,对其进行特征抽取,然后分类。

起初,医用设备都是不可移动的,病人检查必须要到设备所在的地方进行。如今,设备已经可以移动到病房或病人所在的地方,西门子、GE等公司甚至已经提供像手机大小的无线设备。随着技术的发展,医学设备产生的影像质量越来越高,同时,影像中包含的信息内容也越来越丰富,甚至可以包括器官的功能等等。此外,以前的影像多是二维的数据,但现在影像已经可提供三维数据,数据量的增加要求设备必须具备较高的性能。

不仅如此,人体的各种器官,也需要不同的系统设置,而以往基于硬件的系统往往无法实现这一要求,因此研究人员需要研究的是基于软件的可编程系统,以便对数据进行实时处理。从基于硬件的系统到基于软件的系统有两个挑战:一个是计算能力,另一个是能够以多快的速度进行数据转换。现在的敏捷设备都在利用GPU进行图像处理,因此可以建立一个统一的可编程平台。

目前,设备与数据分析的发展经历了4代:

● 第一代:设备仅仅显示数据

● 第二代:设备可以显示经过处理后的数据

● 第三代:上两代的性能再配有GPU的敏捷设备

● 第四代:在云时代具有更高分析与处理能力的设备

设备与技术的转变将带来更多的机遇,国立台湾大学的李百祺教授表示,未来期待与微软亚洲研究院有更多合作。

正如不久前,微软CEO Satya Nadella在2017微软开发者大会Build上所说,定义向智能云和智能边缘转变的新时代有三个特点:首先是体验层向多设备与多感知的转变;其次,人工智能将普及于设备、应用程序和基础设施,以提供更多的见解和洞察;第三,在边缘的计算能力将使计算变得更加分散。鉴于这些特点,我们必将拥有更多的机会。同时,也会有更多的问题需要大家去发现、解决。

标签