在数据智能领域,做脚踏实地、仰望星空的研究

2020-08-07 | 作者:微软亚洲研究院

“从用户单向地让机器执行查询指令,到机器可以根据分析场景和上下文推测人类分析的目的,自动理解、智能分析并主动用可视化的方式呈现给用户,这代表了一种人机交互的范式转变,也是人机协同的未来。”

“服装产品的销售量是多少?”

当你在 Excel 中输入这个问题,Excel 将立即“意会”,把“服装”分类下不同产品的销售量数据以可视化图表的方式呈现在你眼前。

在 Ignite 2019 大会现场,微软展示了这项超实用的 Excel 新功能——对话式数据分析,你所关心的表格里的问题将能够以问答对话的形式交由 Excel 自动进行数据分析,并返回清晰优美、易于理解的可视化图表。这一功能由微软亚洲研究院数据、知识、智能组(Data, Knowledge, and Intelligence Group, 以下简称 DKI 组)提供技术支持,现在已经在 Excel 的 Ideas 预览版中与部分用户见面了。

作为世界上最通用的电子表格系统,Excel 是各行各业都离不开的数据分析利器,无论是财务审计、商业分析,还是市场销售、人力资源……随着数字化时代的到来,海量的数据已经在各行各业的业务决策场景中不断积累。Excel 自诞生以来,其强大、众多的功能一直在不断完善和进化,而一些复杂的进阶功能对大众来说学习成本相对较高。

“在微软亚洲研究院数据、知识、智能组,我们坚持做有远见、有创新且可以解决实际问题的最好的研究。”秉持着这种理念,微软亚洲研究院副院长张冬梅带领 DKI 组一直走在数据智能科研攻关的前沿,“互联网的到来使得信息的获取和分享变得极为便捷和容易,移动计算和物联网的普及进一步增大了数据量,也使得数据种类变得极为丰富。因此,我们的愿景是让数据智能进一步走向大众化,通过提供简单易用的智能工具帮助广大用户从数据中获得洞见和价值,学习并分享知识,提高认知能力,从而把数据转化为生产力。”

微软亚洲研究院数据、知识、智能组合影

微软亚洲研究院数据、知识、智能组是由软件分析组发展而来,融合了微软亚洲研究院在知识计算、大数据挖掘等方面的研究。DKI 组的研究以数据为核心展开,涵盖数据理解、数据生成和数据交互三大主题。其中,数据理解是各项研究的基础,根据数据形态的不同,例如结构化、半结构化、无结构化以及混合结构化,数据理解需要进行有针对性的研究来获得相应的理解方法及工具。此外,语义理解是数据理解的重点和难点,经常要涉及到数据的上下文以及常识知识。

数据生成这一研究主题则来源于信息爆炸时代对内容生产的需求,用户不仅是数据的消费者,也是数据或者内容的制造者,数据生成研究旨在帮助用户提高内容生产的效率和质量,激发用户的想象力。

用户与数据的交互是 DKI 组的第三大研究方向。在过去的几十年中,信息可视化作为最重要的交互方式得到了深入的研究。随着近几年自然语言处理的长足发展,自然语言开始成为一种主流的交互方式,并且和其它交互方式相结合,形成多模态交互,比如对话式数据分析、对话式绘图等等。

目前 DKI 组的主要研究项目包括文档智能、服务智能、对话式数据分析、知识计算等。从 PowerBI、Excel,到 PowerPoint、Forms,再到微软的云平台 Azure 以及 Microsoft 365 的基础架构,DKI 组已经将多样的人工智能技术转化到了微软的产品之中,使更多用户能够零门槛、更高效、更自然地完成数据理解和内容生成,帮助微软的产品团队更高效地运行各种软件服务平台。

下面让我们通过一系列文档智能的成果,来看看 DKI 组在研究和产品转化方面的经验。

智能分析第一步,自动识别表格数据

假设你是一位健身爱好者,除了规律性地到健身房报到,你还会见缝插针地安排户外跑、游泳、登山等日常运动。为了了解自己不同健身方式的成效,以及更好的规划、组合未来的健身计划,你把最近的运动健身数据都整合到了一张数据表中。接下来,让我们看看人工智能是如何将这些数据中的洞察自动且美观地呈现给你的。

健身原始数据

微软亚洲研究院首席研究员韩石在 DKI 组中带领团队主攻数据分析研究(Data Analytics Research),主要研究数据分析任务中对象和过程的建模、学习和推理,来改进数据分析的能力、质量和效率。作为智能数据分析的第一步,Excel 在导入数据表后首先要解决的问题是自动检测和识别表格结构,对多维的元数据进行识别、处理和转换。对机器来说,这一步并非轻而易举,韩石解释道,“对许多用户来说,电子表格不仅仅用来存储数据,还有呈现数据的功能,因此用户往往会把数据表做的很精美,包括把数据放置在表格中的不同区域,或者加一些空行、空列让各部分之间的边界更清晰。因此电子表格数据经常(如下图所示)不像数据库那样规整,而是形式多样且各不相同,机器很难识别其中的模式。”

形式多样的电子表格

在对话式数据分析中,机器还要识别用户在自然语言查询中提到的列名、表格名、单元格值等信息,并将它们与表格中的信息相连接。为此,除了采用传统的实体连接方法之外,研究员们在 EMNLP 2019 的一篇论文中提出了一种基于多任务的学习框架,同时解决了表格实体识别和语义解析问题。

“读懂”表格语义,挖掘有价值的数据洞察

在了解了表格结构后,下一步就要自动挖掘表格数据中的语义和联系,厘清以下几个问题:每一栏的数据分别发挥什么样的作用,是类别、时间,还是计算指标?如果用作计算指标,对应的可能是什么样的计算过程?正是基于精确的语义挖掘,智能数据分析才能够挖掘和推荐面向用户需求的富有价值的数据洞见。

为了支持语义计算和更有效的数据分析,Excel 为用户提供了除传统的数值、字串、日期、时间以外的数据类别,譬如地理和股票类别。以股票类别为例(如下图所示),你在 Excel 输入一系列的股票代码 msft、amd、t 等等时,由 DKI 组的研究员姚金戈和工程师陈曦开发的 Excel AutoDetect 功能就会主动识别你正在输入的股票代码,并提醒你可以把输入的代码字串升级为 Excel 的股票数据类别。升级为 Excel 内建的股票类别后,你就可以调用股票类别的相关属性了(如昨收、最高、涨跌幅等等),这些属性值会自动反应当前最新数据,让一个原本静态的表格,经由简单的操作转换成可以自动更新数据的动态表格,大大节省了创建表格的时间、减少了输入数据的错误、提高了数据的可用性。

1. 输入股票代码,2. Excel AutoDetect 提醒把代码字串升级成股票数据类别,3. 调用股票数据相关属性,4. Excel 自动提供相关实时数据。

那么,Excel 如何自动判断不同的数据分析方式对用户的价值呢?这里主要的判断标准有两类,一类是数据分布是否具有统计显著性,比如一个时间序列数据是否呈现出明显的周期性趋势、转折点和离群点,这些特点是否与平凡情形很不同;另一类分析是对数据语义的概括性分析,这些分析维度的结果不一定统计显著,但在给定类型的数据中,分析的语义具有常见的价值。

例如,在你的运动健身数据中,“爬山”的统计指标包括 “海拔升高”和“海拔降低”两列数据,这两列数据的相关性非常高,因为爬山通常会回到同一海拔高度,因此这一推断虽然统计显著,但其语义价值并不高。而平均心率的区间分布,或是通过“卡路里”和“距离”的相关性展示目标卡路里对应的运动量,这些分析无论是否具有统计意义,都是很有价值的洞察。

左:卡路里消耗与运动距离高度相关;右:平均心率的区间分布

你问,Excel答

得益于 Excel 的对话式数据分析新功能,当你在 Excel 中输入 “Show me average calories of different activities” 和 “Show me calories over time” 等自然语言问题,Excel 就能自动为你推荐基于日期、运动类型等不同分类维度的卡路里分析结果。(如以下所示)

基于日期的卡路里分析结果

基于运动类型的卡路里分析结果

从技术到产品功能发布,微软亚洲研究院 DKI 组与微软 Excel 产品团队合作完成了从技术到应用落地的“最后一公里”。作为团队核心成员,微软亚洲研究院首席研究员楼建光带领团队处理着实际产品中的诸多挑战,不间断地从算法研究到系统设计的各个方面进行优化和改进。他坦言,完成产品转化的过程和做研究有很大的区别,“在打磨技术之外,我们还要站在用户和产品的角度思考,保证目标用户最常见的查询需求都能够得到满足。同时,产品对技术的准确率有着极高的要求,当用户问一个问题,机器自动给出的回答必须有很高的准确率,否则会误导用户的决策,带来极大的损失。”

为了更好地满足产品需求,研究团队对算法框架进行了重新设计,将语义规则和深度学习算法结合起来,构建了一个自底向上的解析框架。这个框架可以充分发挥语义逻辑的知识推理能力和深度神经网络的映射学习能力,既具有良好的语言灵活性和泛化能力,也避免了深度学习的“黑盒”特性,良好的可解释性让系统调试和渐进调优都在可控范围之内,并且能够高效地利用通用知识和领域知识。同时,因为语义规则是与语言无关的,所以深度神经网络无需进行复杂的特征工程,框架良好的多语言扩展能力,还能够低成本地为 Excel 这样国际化的产品完成多语言支持。

“从技术到产品功能的另一大难点是定义技术在产品中的边界,并让用户理解它的适用范围。”楼建光表示,“在这方面,我们在与产品团队的合作中受益良多,花了很多时间来共同探讨技术面向用户的最终形态。我们也为用户增加了小提示,引导用户用Excel 可理解的方式去表述问题,进一步提高效率和可解释性。” 如此“嵌入式”的研发合作,让研究团队开发的精巧算法大大满足了产品和用户的需求。

走向大众的数据分析交互界面和可视化设计

构建操作自然简单、易学易用、功能强大的数据分析和可视化的交互界面,能够显著降低数据分析系统的专业门槛,进一步提高数据分析的效率,对于普及基于数据驱动的决策过程非常重要。DKI 组一直以来致力于数据分析交互界面和可视化方向的研究和探索。研究员张海东、侯智涛、崔为炜等已在这个方向深耕多年。在他们看来,“从用户单向地让机器执行查询指令,到机器可以根据分析场景和上下文推测人类分析的目的,自动理解、智能分析并主动用可视化的方式呈现给用户,这代表了一种人机交互的范式转变,也是人机协同的未来。”

研究团队设计了新型的操作界面用于数据的探查和分析。用户通过简单的鼠标拖拽,即可快速灵活地实现所需的复杂分析。通过和智能分析引擎的紧密集成,在整个分析的交互过程中,可以根据分析场景和上下文的信息,自动给用户推荐分析的结果,并引导进一步的分析路径。研究团队还将 AI 技术应用于可视化图表的设计中,实现了从文本到信息图的自动生成。

首先通过自然语言分析从原始文本中提取关键信息,诸如文本中的整体、部分和比例关系,然后以大量的设计案例为基础,总结并设计出一套自动可视化算法,将信息分别转化成图形、布局、颜色等等,最终合成多张不同形式的信息图。之后,算法会对这些信息图在若干个维度上进行评分,选出其中的最佳结果向用户推荐

基于健身数据的分析结果,自动生成的信息图:爬山占了某一时间段健身总时长的76%

“嵌入式”合作创新的秘诀

DKI 组此前与 PowerBI 团队有着多年的合作经验,与 Excel 产品团队的合作更是水到渠成。面对 Excel 产品团队提出的需求,DKI 组的研究员们在研究过程中总会发现新的问题,产生新的想法,形成一个不断探索、发现、解决关键问题的螺旋式上升的循环。

“这其中给我感触最深的一点,是建立信任,”楼建光这样认为。由于跨国团队的远程合作,所以微软亚洲研究院的研究团队与 Excel 产品团队不仅面临语言、文化的差异,昼夜颠倒的时差,团队成员的技术背景也非常多元,两个团队也因此更加积极地进行沟通。在合作的初期,研究团队快速通过产品 demo 的方式,以切实可见的效果为产品团队呈现了技术革新带来的优势。在合作过程中,产品团队的“实战”经验让研究员们可以更多地从用户视角理解、发现问题,而研究团队也不断帮助产品团队加深对算法的了解,共同梳理逻辑、推动进度。

DKI 组成员与 Excel 产品团队合影

不仅仅是产研团队之间的跨洋协作,DKI 组的内部合作更是像拧成一股绳一样紧密。楼建光表示,“我们组的团队成员优势互补,每个人都有专注的方向,大家日常交流很多,经常互通有无。”当新的想法出现时,DKI 组常常会第一时间共同讨论,寻求合作,同时由拥有相应专长的成员率队科研攻坚,凝聚大家的力量共同完成大型项目。

“我觉得微软亚洲研究院处在一个特别好的位置,既有很大的自由度进行技术创新和科学研究,又可以和微软产品紧密合作,这很容易激发新想法的诞生。” 楼建光说,“我在微软亚洲研究院16年,真的很享受这个环境。”

“脚踏实地,仰望星空”确乎是微软亚洲研究院 DKI 组的真实写照。在这里,研究员们既时时放眼数据智能领域的最前瞻,探求下一个技术突破点,又以用户需求为壤,以应用研究为养料,让技术落地生根,为微软核心产品持续注入着蓬勃的生命力。“相信我们跨领域的交叉研究,结合理论与实践间的相互作用,在未来的创新探索中可以解决更多的现实问题,并创造更大的社会价值。”张冬梅坚定地说。

标签