走近最前沿的AI科研项目——北京篇

2017-06-30 | 作者:微软亚洲研究院

编者按:近期,2017 微软亚洲研究院“合作创·研”年会在微软大厦举行。活动旨在为学者和微软亚洲研究院的研究员们提供展示、交流、探讨的平台,深化项目合作,交流研究经验,分享研究成果,共同探讨亚太学术界共同关注的、最前沿的、具有社会意义的研究课题,以提升亚太学术界在整个计算机领域的影响力。

本次活动汇集了来自中国大陆多所知名院校、科研机构以及微软亚洲研究院的100余位学者,他们通过主题报告、圆桌讨论、项目演示和分论坛等多种形式,分享了微软亚洲研究院近年来与中国大陆高校的45项创新科研合作成果,并探索了不久的将来,我们可能迎来的各种潜在机遇。

我们精选出几个人工智能相关领域的最新成果展示分享给大家。

---------------------------------------------------------------------------------------

AMiner——挖掘学术大数据中的深层知识

想知道人工智能等领域的人才分布吗?在AMiner中,只要输入关键词“Artificial Intelligence”,系统就会返回所有相关领域的专家。不仅如此,AMiner还提供了更加丰富的语义搜索,你甚至可以将搜索范围自定义到地理位置、性别、语言、年龄等等,比如搜索一个身处美国、会说中国话的女性人工智能专家。

AMiner是一个以研究者为中心的学术大数据挖掘系统,核心技术是用户学术画像。通常我们搜索论文,只能看到作者和综述文献等简要的信息。对用户来说,可以凭借经验,或者去学者的个人主页找到照片来判断作者性别,但是有些学者的主页并不会包含照片等信息,所以对计算机来说就会难以判定。而AMiner给每个专家都建立了一个基于语义的个人简介,里面包括很多学者语义信息的预测模型。通过使用预测模型,AMiner可以提供学者的职位、单位、性别、所属地、常用语言、联系方式等信息。

此外, AMiner还希望提供更多信息,包括学者专利发表、LinkedIn、演讲视频,研究兴趣,甚至是学术圈里的师生关系等等,这一系列结构化知识的自动化生成过程就是AMiner的终极目标。因此,AMiner的运用前景十分广阔,它能帮助用户快速找到合适的合作伙伴、满足特定需求的行业和领域人才,例如国内的一些评审需要有国外教育背景,但又能看懂中文文章的专家等等。

AMiner的技术内核可以总结为三个关键词:语义化(Semanticizing)—将非结构数据知识化;集成化(Linking)—连接异构数据,实现数据融合;智能化(Intelligence)—实现系统服务智能化,例如寻找一位为医疗器械做3D打印的材料学专家,计算机搜索时就会面对如何连接跨学科的3D打印与材料学等问题。其中信息的抽取主要面临两个问题:(1)如何从非结构化的页面中将提取出的信息结构化;(2)如何融合来源不同的所有信息。而第二点很重要,因为不是所有人都会实时更新自己在所有社交网络上的信息,如果单纯从学者个人主页提取,那么可能会导致信息丢失。

目前,AMiner已经运行了十二年,有着超过一亿的研究者信息,两亿多的出版论文,三亿多的访问。而期间AMiner与微软一直保持着良好的合作关系,共同成立了Open Academic Society全球组织。微软研究院学术合作部总经理、微软学术负责人王冠三博士和AMiner项目负责人、清华大学的唐杰博士还联合促成了清华-微软学术大数据项目合作备忘录的签署和清华大学数据研究院科技大数据研究中心的成立。未来,期待微软与AMiner继续结合双方在学术大数据挖掘与搜索的科研成果与实践经验,推动产业与学界的深度合作与协同发展,进而惠及整个中国学术界。

社会机器人将如何帮助人类

社会机器人是与人或其他高级智能体进行交互的智能自主机器人,其交互能够遵循社会行为和规则,具有安全性、健康性和舒适性。由此产生的社会机器人学就是当下研究人类-机器人共融问题的新兴学科,从智能性到仿生性再到社会性,你能想象未来将是一个人机互融的社会吗?

目前,社会机器人中的智能性方面,基于深度学习的感知、认知与决策技术已全面爆发,拟人化的感知、认知与计算技术也正在取得突破,但人-机共融的人工智能技术则刚刚起步。而电子科技大学机器人研究中心与微软亚洲研究院合作,关注研究社会机器人学中的可穿戴外骨骼系统,希望可以帮助残疾人行走。目前,研究组跟踪一位残疾人已有两年多,期间,患者的精神和身体状态都有了真正的恢复,腰部已经开始有了力量和温度的感觉。

该研究项目主要涉及了增强学习的三个学术创新:Interactive Learning Control, 基于灵敏度放大算法,降低了系统对传感器的要求,但对模型的要求却变得精准了。因此,运用Interactive Learning,系统可以自动学习模型参数; Hierarchical Interactive Learning,在上层系统中加入人走路的曲线并概括; Coupled Cooperative Primitives,在同一步态下,返回人和机器人之间的碰撞力,这样可以在一个循环结束后产生一个步态。其实,在医学健康方面,外骨骼项目可以应用于恢复训练,而在工业军事方面它则可以助力外骨骼的承重能力。

除了可穿戴外骨骼系统方面的研究,双方合作的另一个研究项目是人机协作驾驶,科学家们希望将感知、认知和决策相连通。感知部分识别图片中的背景与实体并分离;认知部分建立认知地图,判断车辆的位置等信息;最后,再根据感知和认知的信息进行决策。

人机协作中有一个工作是基于语义的动态时间规整算法(Semantic Dynamic Time Warping),目前的很多工作都是基于动态时间规整算法的,这需要给出起始点和终点,再去识别字母和数字,而这对于用户来说是很不方便的。为此,合作研究组开创了一个新的方法,通过提取人书写时的停顿点作为特征,来判断起始点和终点。未来,连续手势识别在人车控制、医学等许多方面都将有着广阔的应用前景。

第一视角的交互研究

HoloLens、谷歌眼镜等头戴式VR/AR/MR眼镜正在慢慢地走入我们的生活。但可以想象的是,头戴式眼镜加遥控器远没有手势遥控来的自然方便,手势识别可以让人们无需借助任何机械设备就能自然地与机器进行交互。使用手势识别的概念,只需手指指向计算机屏幕,光标就会相应地移动。而这可能会使如今常规使用的输入设备(如鼠标、键盘甚至触摸屏)变得冗余。因此,基于第一视角交互的需求,微软亚洲研究院和华南理工大学将合作的研究重点落在了手指尖检测和手势识别方面。

手指尖检测,主要是解决手指检测和手势增强问题。该项目由微软亚洲研究院和华南理工大学人机智能交互实验室合作展开,微软亚洲研究院首席研究员霍强博士提供了关键技术指导。在两年的合作研究中,双方合作收集了Ego-finger数据库用于研究指尖,即第一视角下手势动作“点”的数据,这是人与计算机最直接的交互方式,该数据库将于近期公开。

但随着项目的推进,问题也逐渐显现:仅仅一个手势很难满足人机交互的需求。因此,双方最终将数据库扩充定义了十六种静态手势。研究人员希望能够在图像中找到指尖,并进一步判断是哪一个手指的指尖。

基于数据库研究人员提出了一个基于手部第一视角的双优化交互系统——Multi-finger Detection Classification框架,该系统能够实现多指尖的识别和分类。而这其中的主要贡献有三点:(1)收集两种损失进行优化,其中既有总体误差,又有基于概率的误差,使用双误差方式提升训练准确度;(2)对指尖做了多通道概率图描述,希望当手指不可见时,对应通道也不可见,以便在检测时完成分类;(3)串联高层和低层特征,得出总体损失的结果。基于这样的结构,指尖的检测和分类就可以同时完成。

事实上,人在自然交互时,除了抓和指的动作外,还会有一些简单的手势。手势交互其实传达的是一些路径,即带有时间起始的路径描述。通过手部检测得到交互时的手势轨迹,再基于Path Signature提取的特征,把手势抽象成有时间起始点的一组线段,最后以线段的形式识别作为深度学习的输入。目前,这一项目已经取得一系列成果,在和现有方法进行的比较中,研究人员发现该算法在只用RGB数据的基础上就达到了96.2%的准确率。此外,对比之下,该项目的研究模型相对比较简单和集中,只需做一个基础的检测,之后就可以转化为对识别线段的描述和分类。

机器学习与隐私保护

数据是机器学习的基本。然而数据之中通常包含用户的敏感信息,如医疗数据、金融数据等。如何在确保用户隐私不遭泄露的前提下,保证学习算法同样能学到数据统计信息,是机器学习在未来得到广泛应用之前所面临的巨大挑战。目前,在微软亚洲研究院和北京大学所合作的关于隐私保护机器学习的研究中,此方面已取得了初步成果。

当前逐渐得到学术界公认的隐私定义,是由微软学者在2006年提出的Differential privacy(差分隐私),这个概念为隐私保护建立了非常坚固的数学基础,可以从数学上证明某个算法是否能够保护隐私。即如果用户的个人数据撤出之后,算法的输出结果几乎保持不变,那么就认为算法保护了用户的隐私。然而保护差分隐私的算法,一般是在收集完所有用户数据之后,再执行操作。在现实生活中,用户往往可能并不相信数据收集方,因此更实用的是非交互式局部差分隐私,即在只允许一次通信的数据收集过程中,保护用户隐私。目前此方面已有的工作,都集中于密度估计等统计推断问题,很少涉及到一般的机器学习算法。

在微软亚洲研究院与北京大学的研究合作中,研究人员考虑了高维均值估计、稀疏线性回归和逻辑斯蒂回归等常见学习问题,利用随机投影、多项式逼近等技术,设计出高效隐私学习机制,并理论证明了相关性能保证,使得隐私保护机器学习成为可能。相关论文发表在机器学习顶级会议ICML 2017。

在此之后,微软亚洲研究院与北京大学希望进一步扩展已有研究,一是理论上探讨其它学习任务是否能在局部差分隐私保护下完成,二是针对现实问题和真实数据,设计实用的隐私保护学习算法。

从出租车轨迹数据到户外广告牌放置

随着城市化的浪潮席卷全国,快速扩张的城市使得人们在通勤路上花费的时间越来越多。相较于平面媒体而言,室外广告牌这种传统的广告形式反而成为一种富有商业价值的营销手段。从营销效果来看,户外广告成功的一个关键因素就是广告的投放位置,能够被更多目标用户所看到的广告才能有更好的效果,同时也避免宣传费用的浪费。

然而选取室外广告牌的放置点并非易事。传统的方法一般是由广告制作公司派专门的业务人员去实地统计,找到多个潜在地点,并进一步计算每个地点的人流量分析、人群种类分布等人口统计信息,最终生成报告。但这种方式耗时耗力,且只能统计一次,数据很难实时更新。

为此,微软亚洲研究院与浙江大学CAD&CG国家重点实验室展开了为期一年的科研合作,致力于研究如何结合大规模出租车轨迹的数据挖掘工作和前沿的可视分析技术,以支持户外大型广告牌的精确投放。微软亚洲研究院在数据处理、分析和系统基础架构等方面为浙江大学的研究团队提供了强有力的支持。研究生成了一个基于出租车轨迹数据选取广告牌放置位置的可视化分析系统——SmartAdP。在此之前,双方合作分析了广告投放位置选择需要考虑的因素,包括交通流量、车流速度、车流轨迹与流向分布和周边环境类型等。由于需要知道用户的信息,所以创造用较小代价取得更多有效数据的方法十分重要,而出租车轨迹的数据,则能够清楚地展现潜在目标用户群的行为轨迹。

该研究项目主要可以解决三个问题:首先,保证能从大规模出租车轨迹中提取出与广告牌放置位置相关的信息;然后整理出一套综合计算能力和领域知识来生成放置方案的系统;最后,找到一种准确且清晰易懂的可视化表达用于帮助用户比较不同的放置方案。为了从大规模出租车轨迹中提取数据并加速数据挖掘的算法,研究员们建立了三套索引。

如上图所示:从边到整体的映射,从点到轨迹的映射,以及从轨迹到点的映射。其中,道路网络的边表示道路片段,顶点表示道路交叉口。通过这三套索引,一种基于启发式贪心的搜索算法能够交互式地帮助用户从海量轨迹数据中对于给定的参数寻找最佳的广告牌放置地点。

然而,由于解决方案空间巨大,挖掘算法不可能穷尽所有的组合挑选出全局最优解。如上图所示,SmartAdP系统集成了先进的可视分析技术,使用多个关联视图帮助用户分析不同广告牌放置方案的性能。首先,所有被放置方案选择的地点按照地理距离排布在右上角的地点视图中,其中每个圆表示一个被选中的地点,如下图所示。

圆的边缘编码对应了方案颜色,同时点击地点可以看到放置方案在地图上的具体分布情况。其次,不同的放置方案以不同颜色的图符形式呈现在左上角的解决方案视图中。研究员们选择了类似汽车仪表盘的设计,图符中的热力图与指针表示方案覆盖车流的平均速度,内圆半径编码的属性可根据分析需求改变;外圆的蓝条表示目标用户的覆盖率,下侧小圆则编码了广告牌附近不同类别地点的数目。

通过紧凑的图符编码形式与基于相似度的布局,熟练的分析师可以立刻判断放置方案的大致性能。最后,底部的排序视图将允许分析师探索方案的具体属性分布并调整其权重。基于表格的可视排序技术,分析师可以根据他们的偏好立刻确定性能最优的广告牌放置方案。

未来,微软亚洲研究院与浙江大学希望利用更多数据进一步提升该系统的准确性,从而将这项技术应用到更多的选址实践中,如充电桩的选址等等。我们相信通过交互式的数据挖掘和数据可视化可以实现人与机器的耦合,创造更多城市智能决策的解决方案。

利用异构社交媒体数据预测工作流动性

一直以来,微软亚洲研究院与西北工业大学於志文教授都保持着长期密切的合作关系。近期,双方研究人员正在合作研究如何通过异构社交网络数据来判断工作流动性的趋势。该研究项目一方面可以对个人择业提供帮助,帮助用户评估自己的职业能力;另一方面可以帮助企业在招聘时寻找到更适合的人选,或为判断某个人才的升职和挽留决策提出参考。

在研究中研究人员最关心的问题是:一个人受到什么因素的影响才会换工作。经过大量的调研并借助交叉学科的研究成果,研究人员总结出了影响工作变动的两大因素:一是环境因素,比如在经济形势比较利好、就业上升期内的发达地区会有比较频繁的工作变动行为,而行业属性也对工作变动的情况有所影响,如IT行业就比教师等传统行业的流动性更强;另一大因素是个人差异,其中个人的性格类型、职业能力、行业兴趣、职业观、就业紧迫性等都会影响工作的变动。因此,在提取特征时,研究人员会预设两个主要参数:影响职业变动的决定因素和个人行为记录。

研究人员借助LinkedIn(领英)和Foursquare两个平台的数据进行了研究。通过LinkedIn获取用户的学历背景和工作经历等信息,而在 Foursquare 获取用户的生活行为记录,最后总结出环境因素和个人差异两部分的特征。而从此前针对4万余名用户所进行的实验结果中可以发现最有影响力的四个特点分别是用户跳槽频率、工作周期、消费多样性和教育水平。

在预测评估时,研究人员会检测模块是否经得起考验。利用随机森林(Random Forest)和自适应增强(Adaboost)等机器学习方法,将一段时期是否换工作定义为二分类问题进行预测,计算单个特征对分类结果的影响力,从而精确量化各个因素的重要性。此外,研究人员还实现了基于企业之间人才交流关系的层次聚类(Hierarchical Clustering)模型,将企业按人才吸引力模式划分为不同的“圈子”。结果表明,一个企业的大部分专业人才都来源于若干小圈子,这为企业招聘时缩小了探索范围,且为精准定位人才提供了指导。另一方面,人才流失的目的企业也会形成以专业技能为基础的圈子。而在此基础上研究人员设计了基于圈子结构特征的人才流失分布预测方法,进而实现了对企业人才流失的定量预测。

此项研究可帮助相关机构在未来了解不同行业和地区的工作流动情况,如什么背景的人会来到或离开北京工作,进而做出更宏观的就业情况预测。随着该数据模型的逐步成熟,双方研究人员希望今后可以对个人用户在择业时提供具有实际借鉴作用的指导。未来,微软亚洲研究院将继续与西北工业大学在人才流动性方面开展深入合作,如地区间人才流失的监控和预估、人才吸引力与地区企业分布和经济结构的关联等,从而促进研究成果的社会价值转化。

合作创研 继往开来

多年来,微软亚洲研究院一直积极地与中国学界在计算机各领域进行科研合作,并取得了阶段性的卓越成果。目前,微软亚洲研究院已经和10所国内高校建立了多个领域的联合实验室,汇聚了计算机各研究领域的65位学术带头人,开展了500多个合作项目,发表了高水平学术论文1300多篇。“创一流科研水平、培养一流人才”是微软亚洲研究一直以来的目标。未来,微软亚洲研究院将继续与中国学术界保持密切的合作,希望将人工智能技术惠及每一个人、每一个机构。

标签