我对多媒体2.0的定义(上)

2007-07-17 | 作者:微软亚洲研究院

   
在前面的博客中,我们给读者们介绍了微软亚洲研究院最新的视频搜索技术,不少网友反馈说对网络多媒体的未来很感兴趣。正巧,微软亚洲研究院网络多媒体组高级研究员兼院长技术助理李世鹏博士,在前不久举行的中国电子信息创新技术年会上做了一场以“多媒体2.0”(Media
2.0)为主题的讲座,精辟地揭示了多媒体新时代的5个“D”趋势。下面,我们将他演讲的主要内容与大家一起分享。

 

文:李世鹏

 

 


         
一. Democratized media life
cycle(大众化的多媒体生命周期)

 


          我们大家知道多媒体的生命周期(Life
Cycle)从拍照片、拍视频等媒体采集任务开始,到编辑、编码压缩,接着再上传给大家分享或者向公众发布,最后在用户那边呈现出来。对于这个Life
Cycle中每一步,现在普通老百姓都可以做。就媒体采集而言,随着数码技术的发展,现在很多人家里都拥有,有的甚至拥有不只一个,数码相机或者摄像机。而针对大众化的媒体编辑工作,市面上也开始有很多易用的编辑工具,比如在Windows里面,就有一个简单易用的Movie
Maker编辑器,而基于Web的编辑工具也开始出现,比如被Yahoo收购的Jumpcut。

 

我对多媒体2.0的定义(上) 

(李世鹏博士在给盖茨做最新技术成果演示)

 

    而在多媒体的传输中,P2P技术现在慢慢得到普及。P2P技术的核心是把鼓励用户把自己的带宽、自己计算机上的资源贡献出来用以提高传输速度和效率。另外,越来越多的照片和视频分享的网站,给大众提供了一个交流多媒体的平台。基于这样的平台,用户一旦有了一个好的多媒体内容,就可以很容易各种形式包括博客、社区等发布贡献出去。这样多媒体内容的发布也变成一个老百姓自己就可以做的事。     

 

   
这里面有很多研究可以做,微软亚洲研究院现在主要着重于研究的是怎么让用户更容易地采集这些多媒体,比如说利用智能多媒体计算技术,怎样帮助用户更好地拍一张照片,拍一段视频,这不只限于传统的摄影技术,而更主要地在于怎样识别要拍的场景,及时反馈给用户什么角度,多大大小,怎样构图,等比较高层次基于美学的指导。我们有Lazy
Media技术,在拍摄的时候有一些模板帮助你更好地拍摄照片。同时我们也研究如何帮助用户更好更快地编辑多媒体。比如说我们的Auto
Movie技术,现在已经在Movie
Maker编辑器里被成千上万的用户所使用。它实现的主要功能是:给你一段视频以后,计算机自动帮你进行分析总结。比如我拍了10分钟的视频,而我只需要1分钟,利用Auto
Movie技术,计算机会自动把它剪辑成1分钟,而且会自动配上匹配的音乐。

 

    
二.
Decomposed media contents
(结构细化的多媒体内容)

 

在传统多媒体中,比如说在一段电影DVD中,用户如果想要搜索,可以通过快进、快倒的手段拉到他想看的地方。这些操作都很简单,也是很成熟的技术。但是,我们还可以怎么样才能更好地提高用户体验呢?Web开始时候大部分都是HTML

(Hyper-Text Markup Language)
文件,文本文件比较多。文本文件为什么好处理?因为它们有一些很简单、自然的结构,从人类有文字以来一直是这样的。我们以一本书为例子,书里面有章,章里面有节,节里面有段,段里面有句子,句子里面有分句,分句里面有词组,词组里面有单词等等。但是,对于多媒体而来,则缺乏这种明晰的自然层级结构。有些多媒体内容,比如说DVD中虽有一些章节,但是很粗,不足以让用户很快找到或者跳到一个特定的场景。因此,很自然,在多媒体内容里怎么建立跟文本文件类似的结构,这可能是针对多媒体内容下一步要做的事情。把多媒体内容分解变成一个个很细小但又有一定层次结构的媒体单元,会更有效地对它进行搜索、管理、存取、编辑和制作。比如说,把一个电影分解成有意义的章(Chapter)、节(Section)、场景(Scene)、镜头组(Shot)、视频帧(Frame)以及一帧里面的物体(Object),就能对它越有效地进行处理,让用户可以更快找到想要的东西。这不但可以在同一个多媒体内容进行有效地搜索,也可以在互联网多媒体搜索中起到很大的作用。比如用户要搜索比尔·盖茨在什么地方演讲,不像现在大多数多媒体搜索技术只返回一整段可能包括比尔·盖茨演讲的视频内容,将来的基于这种细化的多媒体内容的搜索技术,能返回给用户比尔·盖茨演讲在一段视频里出现的精确位置,用户不需要浏览整个视频就可以马上跳到那一位置。

 

另外,现在的多媒体编辑系统几乎无一例外地在编辑后,用新的多媒体内容替代原始的多媒体素材。这样编辑后的新的多媒体内容完全失去了和用到的多媒体素材的联系,原来有关的数据都会丢失。根据格式细化的多媒体内容,我们完全能针对多媒体内容建立一套新的多媒体Web技术。它基本上和现在基于HTMLWeb概念很类似,一个多媒体的web
网页,包含着来自其他网页的多媒体内容,这些内容是通过web
link
联系在一起的,只有在呈现给用户的时候,它才实时地渲染出最后的媒体格式。这样的话,我们可以一直保持原始素材的出处和质量,不止于像传统编辑工具那样,丢失了关联数据和引进了重复编码的质量损失。这可能要求定义一种我们叫做HMML 
(Hyper-Media Mark-up Language)
的格式来实现这样的功能。此外,有了这样的技术,用户可以自由地从一段视频里面可以从一段跳到另外一个视频里一段,你可以方便快捷地浏览到多媒体里面的内容,这都是把多媒体内容分解成很小单元带来的好处。在微软亚洲研究院,我们正致力于基于内容的多媒体分析技术和HMML技术的研究,希望在不远的将来能给用户带来新的多媒体Web的体验。

 

标签