微软清华开放全球最大学术图谱

2017-08-22 | 作者:微软亚洲研究院

微软清华最近联合发布了学术图谱Open Academic Graph (OAG)。这个亿级图谱集成了目前最具规模与影响力的微软学术图谱(Microsoft Academic Graph, MAG)和清华大学的AMiner学术图谱。具体来说包含了MAG中1.66亿学术论文和AMiner中1.55亿论文的元数据信息。经过集成这些数据信息,生成了两个学术图谱之间近6千5百万链接(匹配)关系。

构建亿级开放学术图谱是一项极具挑战的研究工作,因为学术数据在不同图谱中呈现分布异构的特点,同名异义和异名同义问题严重,实现数据的精准匹配是一个重要挑战。下面举例说明这几个问题的难点所在。

数据异构。由于数据分布在不同数据源,可能面临数据异构的问题。比如论文作者可能存在不同的格式,如Quoc Le 和Le, Quoc。又如,论文所发表的期刊或会议有全称或缩写等多种形式。

同名消歧问题。同一名字可以表示多个实体,这也给图谱连接带来了很大困难。比如常见姓名通常是匹配的难点。在2016 年,中国重名最多的30 个姓名中,每个姓名重名人次达到20 万以上。对于论文来说,不同论文也可能有相同的题目,如:Data, data everywhere 在数据库中可对应多篇文章。

此外,要实现亿级数据集成,如何进行高效计算是另一个重要挑战。以AMiner为例,已经公布的论文数据就有1.55亿,而微软学术图谱的公开数据也达1.6亿,计算两个图谱匹配关系的算法复杂度一般来说是O(n2),这需要大量计算。我们设计了一个折衷方法,在既考虑精度的情况下,也利用哈希算法提高算法效率,将算法复杂度降低到O(nlogn)到O(n2)之间,目前每天能够完成约2千万篇论文的匹配,基本完成了合计3亿篇论文的自动匹配,并保证了高匹配精度。

开放学术图谱是开放学术组织(Open Academic Society)的一个重要项目。开放学术组织是微软、清华、艾伦人工智能研究所、亚利桑那大学、华盛顿大学、加州洛杉矶大学、澳洲国立大学等20个全球机构一起联合成立的学术组织,旨在推广学术数据的开放共享、加强学术交流与合作。开放学术图谱以集成全球不同学术知识图谱、公开共享学术图谱数据、提供相关学术搜索与挖掘服务为目标。具体包括:

集成丰富的学术知识数据。目前开放学术图谱的核心数据来自微软学术图谱(MAG)和AMiner学术图谱,下一步将集成更多其他学术图谱数据,包括扩充不同类型实体(如作者、论文等)的语义数据。通过数据集成和数据挖掘算法[3]将链接更多实体更精准和丰富的“画像”数据,包括论文的元数据、概念网络、研究领域、全文等和作者的基本信息(如:职位、单位、联系信息、国别、性别等)、研究兴趣以及论文列表等。

数据共享。通过共享不同的学术知识图谱,以及它们的链接关系,我们希望能够造福学术界对知识图谱、学者合作关系、学术主题挖掘以及大规模学术图谱连接等领域的研究。同时,欢迎更多来自学术社区的贡献来进一步增强开放学术图谱。

服务共享。我们希望设计更加智能的学术图谱连接系统,并提供相关的服务(如API),以方便更多人使用服务以及加入开放学术社区。

未来,我们将研究如何集成大规模异构学术图谱中不同类型的实体(如作者、会议等),公布更多学术图谱连接数据(如作者连接数据),设计更加智能的学术图谱连接系统并提供相应的服务。

标签