能识图的搜索

2007-08-01 | 作者:微软亚洲研究院

 

   
在一些专业图片公司里,很多员工每日都要对各种图片进行归类、标注,撰写描述信息。计算机何时才能够像人类一样看懂一幅图片?《互联网周刊》记者李洋为此采访了微软亚洲研究院的张磊研究员,与大家分享一种“能识图”的搜索技术。

 

文:《互联网周刊》 李洋

 

  市场现状是,搜索引擎能够认字,却无法识图。无论是基于桌面的图片管理软件还是基于互联网的图片搜索,都还停留在一个浅显的层次,主要依靠图片本身的文件名称和简介来获取一幅图片的含义。给搜索引擎一张图片,它很难像搜索关键字那样,搜索出与之相关的图片。

 

   
图片搜索可以变得更智能吗?微软亚洲研究院的研究员张磊博士为《互联网周刊》带来了肯定的答案。新一代图片搜索技术已经可以像人一样,“看”到一幅图片的兴趣中心,判别它是人物肖像照或是风景照、摄于室内还是户外。甚至,在人的协助下,计算机还能够在许多张合影中找寻到同一张人脸。这些听起来不可思议的事情,已经在微软的实验室里变成了现实,甚至有些技术已应用到部分产品当中。

能识图的搜索

   
通常用数码相机拍摄的照片带有时间戳,因此当系统将其按照时间分组时,较为容易实现。在时间轴上,各张照片的时间戳分布是不均匀的,而根据其时间间隔密度,系统便可以把一段时间内拍摄的照片自动分组。这样用户可以很容易按照时间意义上的事件来选出需要的照片。

 

 
 而在按照室内/室外、城市/风景进行分组时,实现起来则稍有难度。系统通过对图像的颜色、纹理进行辨别。通常来说,室内的色调偏暖,背景均匀,纹理变化不大,室外则相反。在处理城市建筑/风景图片时,分析方法也与之类似。系统将图片划分为5*5个子图,对每个子图提取相应的颜色矩信息,并分析其纹理的边缘方向是垂直还是水平。

 

  通常户外的背景较为柔和,树木、蓝天及地平线的元素较多;而城市内建筑物的线条均有棱有角,背景变化较大。根据这些特征做成分类器,用几万张图片训练出一个模型,每当有新照片时,系统便可根据分类器将其自动分类。而由于某些照片并不能准确地归为室内/室外,或是城市/风景,因此该系统基于前者的分类准确率大致为90%以上,而后者目前能达到80%以上,并自动拒识有可能分错的图片。

 

  最为有趣的一点是,系统可以对一张已导入的图片中的人脸进行标注,并在图片库中查询与之相似的图片。比如,你和朋友结伴游玩,拍摄了好多照片,想找到自己的照片时,利用这项技术可以省去很多麻烦。首先,你要对一张人物照进行标注,让计算机知道这张人脸属于谁。而后,你可以通过几次确认,训练计算机的认知,它便可以自动识别了。

 

   
这项利用了人脸标注的技术在实现的时候难度较大,因为人脸识别技术在整个计算机领域里仍面临着很多尚未解决的难题,所以系统还综合考虑了其他一些上下文因素,比如人物所穿的衣服、环境背景等,在同一批拍摄的照片中,这些因素显然能够起到关键的辅助作用。同时,通过人为的标注确认,也可以大大提高识别程度。

 

  人在看到一幅图像时,通常会将目光停留在某一个点上,这也是摄影家们所称的“兴趣中心”。如今,计算机也能够做到这一点。这项技术能够构建一个用户注意力模型,从视觉、心理学、色彩反差等多个角度判定图片中的哪个部分会比较吸引用户。张磊博士为记者演示了一个自动寻找图片中的兴趣中心的屏保。随意选中几幅图片,系统可以从人类感观角度生成一个浏览路径,始终围绕着兴趣中心对图片进行缩放。这个由系统自动生成的屏保,看起来就像是由电视导演剪切好的拉伸镜头一样精彩。

 能识图的搜索

  目前,一些商业图片和互联网上带有上下文的图片信息,有助于帮助完成标注训练工作,但噪音仍很大。借助几百万张已被标注的图片库,系统可以自动标注新的图片。对于一个新的图片,系统可以在图片库中寻找相似的其他图片,并对结果进行分析和聚类,就可以得新图片的标注。这将是一种能够搜索到图片里面的技术。它使计算机不仅认识了落日和晚霞,也认识了人和动物,但显然仍有许多问题等待进一步探索和解决。

 

标签