微软研究院和清华大学联合发布 “开放学术图谱(OAG)2.0版本”

2019-03-07 | 作者:微软亚洲研究院

编者按:开放学术组织(Open Academic Society)是由微软、清华、艾伦人工智能研究所、亚利桑那大学、华盛顿大学等20个全球机构联合成立的学术组织,旨在推广学术数据的开放共享、加强学术交流与合作。其中,连接了来自微软和清华大学两个亿级学术图谱的开放学术图谱(Open Academic Graph,OAG)是该组织的一个重要项目。近日,微软研究院和清华大学联合发布了OAG 2.0版本,新版本增加了作者和出版地点相关的数据,并实现了两个数据集中实体的自动匹配链接。


开放学术图谱(Open Academic Graph,OAG)是一个大型的学术知识图谱,连接了两个亿级学术图谱:微软学术图谱(Microsoft Academic Graph,MAG)和清华大学的AMiner学术图谱,致力于提供完全开放、免费的公开学术图谱。具体来说,OAG包含了来自MAG的超过1.66亿篇学术论文和来自AMiner的近1.55亿篇论文的元数据信息。经过集成这些数据信息,OAG生成了两个学术图谱之间近6500万对链接(匹配)关系。

2017年8月,微软研究院和清华大学联合发布了OAG 1.0版本。在过去一年多的时间里,OAG 1.0版本吸引了约4万次下载。

OAG 1.0概览

OAG 2.0

在OAG 1.0版本的基础上,近日,微软研究院和清华大学双方联合发布了OAG 2.0版本。

OAG 2.0包含了约7亿实体数据和20亿实体之间的链接关系,其中包括AMiner的2.8亿实体数据(作者、论文、会议)和微软学术图谱MAG的4亿多实体。新版本不仅增加了如作者、出版地点、论文等更多类型的实体数据以及相应的匹配关系,同时,还实现了两个数据集中实体的自动匹配链接。

OAG 2.0定义的问题如下图所示。OAG目前有约7亿实体数量,不同实体相互联系构成了一个大规模异构网络。下图的中间部分表示了作者名字的歧义性。而图的下面则展示了不同类型实体的异构性,因此匹配不同类型的实体需要考虑其不同的特点。

大规模实体匹配的示例

截止2019年1月,OAG 2.0的统计数据如下面三个表格所示。因为微软学术图谱MAG和AMiner两个学术图谱都在不断演变,所以OAG 2.0采用了MAG 2018年11月的快照和AMiner 2018年7月或2019年1月的快照。

OAG出版地点数据统计

OAG论文数据统计

OAG作者数据统计

注:对于作者匹配,本次匹配只考虑了论文数不少于5的作者。将论文数量较少的作者排除后,AMiner中有6,855,193位作者,MAG中有13,173,936位作者。

构建亿级开放学术图谱

构建亿级开放学术图谱是一项极具挑战的研究工作。由于学术数据在不同图谱中呈现分布异构的特点,同名异义和异名同义问题严重,因此,实现数据的精准匹配是一个重要挑战。

研究过程中,主要的难点体现在以下三个方面:

  • 实体异构。OAG中不同类型的实体具有异构性,它们都有各自不同的特征。例如,出版地点的主要属性是名称,而论文有不同类型的属性,如题目,作者列表,年份等。此外,不同数据源的相同属性也有异构性。例如论文作者可能存在不同的格式,如Quoc Le 和Le, Quoc;发表地点有全称或缩写等多种形式。
  • 实体歧义。同一名称可以表示多个实体,这也给图谱连接带来了很大困难。比如常见姓名通常是作者匹配的难点。对于论文来说,相同的题目也可能代表不同的论文,如在KDD 2016中收集了两篇题为“robust influence maximization”的不同论文。
  • 大规模匹配。要实现亿级数据集成,如何进行高效计算是另一个重要挑战。以已经公布的论文数据为例,AMiner和MAG各自有约1.7亿和2亿篇论文,因此需要设计一个高效的匹配框架。

为此,微软和清华大学的学者们尝试结合哈希算法、不同神经网络模型和注意力机制等方法,来连接两个大规模学术图谱上不同类型的实体(出版地点,论文和作者)。

随后,学者们评估了少部分匹配关系(大约1,000个出版地点/论文/作者匹配对),其准确率表现优异。

实体匹配准确率

OAG:学术数据的开放共享

开放学术图谱OAG是开放学术组织(Open Academic Society)的一个重要项目。开放学术组织是微软、清华、艾伦人工智能研究所、亚利桑那大学、华盛顿大学、加州洛杉矶大学、澳洲国立大学等20个全球机构一起联合成立的学术组织,旨在推广学术数据的开放共享、加强学术交流与合作。

OAG可以用于多种研究课题,如:网络数据挖掘(论文引用关系网络,作者合作关系网络等),文献内容挖掘,同名作者消歧和学术图谱对齐等等。

以集成全球不同学术知识图谱、公开共享学术图谱数据、提供相关学术搜索与挖掘服务为目标,微软和清华大学的学者们希望OAG可以实现:

集成丰富的学术知识数据。目前OAG的核心数据来自微软学术图谱MAG和AMiner学术图谱,下一步OAG将集成更多其他学术图谱数据,包括扩充不同类型实体(如作者、论文等)的语义数据。通过数据集成和数据挖掘算法,OAG将链接更多实体,及更精准和丰富的“画像”数据,包括论文的元数据、概念网络、研究领域、全文等和作者的基本信息(如:职位、单位、联系信息、国家、性别等)、研究兴趣以及论文列表等。

数据共享。通过共享不同的学术知识图谱,以及它们的链接关系,造福学术界对知识图谱、学者合作关系、学术主题挖掘以及大规模学术图谱连接等领域的研究。同时,也欢迎更多学术社区的贡献来进一步增强OAG。

服务共享。设计更加智能的学术图谱连接系统,并提供相关的服务(如API),以方便更多人使用服务以及加入开放学术社区。

了解更多关于开放学术图谱OAG的信息

参考文献

[1] An Overview of Microsoft Academic Service (MAS) and Applications

[2] ArnetMiner: Extraction and Mining of Academic Social Networks

 

标签