数据挖掘,你不应该错过的六本书

2018-06-15 | 作者:张富峥、王英子

不久前我们推出的《推荐算法不够精准?让知识图谱来解决》以及《如何将知识图谱特征学习应用到推荐系统?》系列文章受到了同学们的广泛欢迎。大家对推荐系统以及与之相关的、底层的数据挖掘技术非常关注。

为了帮助小伙伴们更好地学习相关内容,我们邀请微软亚洲研究院社会计算组研究员张富峥和实习生王英子为大家推荐了六本数据挖掘领域的经典书籍,既涵盖了数据挖掘的概念、算法等基础知识,又包含了数据挖掘在不同子领域的具体应用。一起来看看吧!

一、基础篇

主要目标:帮助大家了解数据挖掘领域的基本概念、代表性算法和评估技术,比如数据的关联分析、分类及聚类算法等,为大家之后进一步学习数据挖掘知识、深入进行科研或在实际场景中应用奠定基础。

1. Introduction to Data Mining

作者:Pang-Ning Tang、Michael Steinbach、Vipin Kumar

中文译名:数据挖掘导论(完整版)

适合人群:初级到中级学者

推荐指数:★★★★★

主要内容:本书内容涵盖了数据挖掘的方方面面,从什么是数据挖掘、什么是数据以及数据预处理的方法,到具体的数据挖掘算法,比如分类、关联分析、聚类、异常检测等,从基本的定义入手,由浅至深地帮助读者透彻地理解数据挖掘的基础。书中使用大量的图表、综合示例、关键算法的简洁描述等,尽可能地直接聚焦于数据挖掘的主要概念。

推荐理由:本书是明尼苏达大学和密歇根州立大学数据挖掘课程的教材,是数据挖掘领域经典的入门教程。本书内容浅显易懂,只要求具备很少的统计学或数学背景知识,略去了各个定理的证明部分,通过枚举大量具体的算法实例来简要说明算法的流程和意义,让初学者可以以最快速度总揽全局,掌握数据挖掘领域的基本要点。

2. Data Mining: Concepts and Techniques

作者:Jiawei Han、Micheline Kamber、Jian Pei

中文译名:数据挖掘:概念与技术(原书第三版)

适合人群:初级到中级学者

推荐指数:★★★★★

主要内容:本书是最新的第三版,主要从数据库角度全面系统地介绍了数据挖掘的基本概念、方法、技术以及技术的研究进展,并且重点关注了数据挖掘领域最新的技术和发展,介绍了社会网络挖掘、流数据挖掘和数据立方体计算等最新的研究方法,并探讨了数据挖掘方法在金融等领域的应用。书中引入了许多算法和实现实例,以易于理解的伪代码编写,适用于实际的大规模数据挖掘项目。

推荐理由:本书是一本非常优秀的数据挖掘教材,更是数据挖掘领域具有里程碑意义的经典著作。它不仅详尽讲述了数据挖掘的基本概念和方法,又具有一定的深度,介绍了数据挖掘领域近年来最新的课题。它结构合理、调理清晰,每一章都针对关键专题有单独的指导,并且只要求读者具备少量的编程经验以及了解基本的数据和统计分析方向的知识。

二、 应用篇

主要目标: 在大数据时代,数据的形式多种多样,在不同科研领域、商业背景、产业类型中的应用也十分丰富。这里我们通过四本书来为大家介绍数据挖掘的方法和思想在三个不同的子领域中的具体应用,帮助大家了解数据挖掘领域最前沿的热门研究方向和应用场景,为大家把握科研或工程的方向提供参考。

1. Recommender Systems: An introduction

作者:Dietmar Jannach、Markus Zanker、Alexander Felfernig、Gerhard Friedrich

中文译名:推荐系统

适合人群:中级到高级学者

推荐指数:★★★★★

主要内容:本书比较全面地介绍了推荐系统涉及的相关知识点,呈现了许多经典算法,并讨论了如何衡量推荐系统的有效性。书中内容分为基本概念和最新进展两部分:前者涉及协同推荐、基于内容的推荐、基于知识的推荐、混合推荐方法,推荐系统的解释、评估推荐系统和实例分析;后者包括针对推荐系统的攻击、在线消费决策、推荐系统和下一代互联网以及普适环境中的推荐。

推荐理由:本书内容详尽,广泛涵盖了不同类型的推荐系统,并对这些推荐系统逐一进行了细致地剖析,并辅以实际应用案例的介绍,适合想要了解推荐系统的基础和相关研究的读者作为推荐系统的入门书籍。书中包含了大量的图、表以及示例,有助于读者理解和把握相关知识。

2. Recommender Systems: The Textbook

作者:Charu C. Aggarwal

适合人群:中级到高级学者

推荐指数:★★★★☆

主要内容:本书详尽地介绍了推荐系统的方方面面,可以大致地被分为三个部分:“算法和评估”部分探讨了推荐系统中的基础算法,包括协同过滤的方法、基于内容的方法、基于知识的方法、集成方法以及推荐系统的评估方法;“特定领域和上下文下的推荐系统”部分介绍在如时间空间数据、社交数据、标签数据以及信用度数据等不同的上下文场景数据中如何进行推荐;“高级的主题和应用”部分介绍了和推荐系统的鲁棒性相关的内容,如先令系统、攻击模型以及相应的防御模型。

推荐理由:这是一本非常优秀的推荐系统教科书,它不仅用简单的语言阐述了推荐系统的基础,深入地介绍了核心算法的概念以及数学论证,还为读者提供了第三方工具或框架使用时需要查询的大量资料。它对于推荐系统的基础、具体应用和相关文献进行了全面介绍,既适合研究人员作为推荐系统的入门书籍,又适合工业从业人员作为工具参考书。

3. Sentiment Analysis: Mining Opinions, Sentiments, and Emotions

作者:Bing Liu

中文译名:情感分析:挖掘观点、情感和情绪

适合人群:中级到高级学者

推荐指数:★★★★★

主要内容:本书主要从自然语言处理的角度全面地介绍情感分析这个主题中的基础算法以及先进的研究技术和科研结果。书中几乎涵盖了情感分析所有的核心领域,在介绍了情感分析的基本概念和多种基本的情感分析场景后,又解读了多个新兴的情感分析主题,比如辩论分析、意图挖掘、假民意检测等,不仅能够让读者了解通常用于表达观点和情感的问题和语言的基本结构,还能帮助读者深入地探究大量观点挖掘和情感分析的算法和系统。

推荐理由:本书是迄今为止观点挖掘与情感分析领域最权威、最全面的著作之一。书中几乎涵盖了情感分析的方方面面,将理论和实践相结合,深入浅出,同时兼顾了领域知识的深度和广度,不仅可以作为刚接触这一领域的学者或开发者的入门教材,又可以作为了解这一领域最前沿研究成果的经典读物。

4. 移动数据挖掘

作者:连德富、张富峥、王英子、袁晶、谢幸

适合人群:中级到高级学者

推荐指数:★★★★★

主要内容:本书选取当前学术界和工业界的热点为主题,自成体系,书中以人的轨迹数据,特别是移动社交网络的位置数据为中心,结合人的基本信息及社交网络等相关信息来研究个人与群体的移动模式特性,介绍了移动数据挖掘的基本概念和方法,具体包括移动数据预处理、用户移动模型、用户画像以及兴趣位置推荐等,内容十分新颖。

推荐理由:本书是大数据管理丛书中的一本,书中梳理总结了作者团队过去十年在人群移动数据理解上展开的研究,这些研究经验不仅对于很多实际应用有着重要的价值,也有助于解决一些具有社会意义的科学问题。本书在介绍了移动数据的概念及其价值的同时,还细致地讲解了移动数据领域内的多个前沿研究课题,对于想要深入了解这个领域的学者和工业从业人员是非常好的选择。