数据智能与计算机图形学领域2019推荐论文列表

数据智能

1. Data-anonymous Encoding for Text-to-SQL Generation
在跨领域Text-to-SQL研究中一个重要的问题是识别自然语言语句中提到的列名、表格、及单元格的值。本文中提出了一种基于中间变量和多任务学习的框架，尝试同时解决表格实体识别和语义解析问题，取得了良好的效果。论文在EMNLP 2019会议发表。

2. Towards Complex Text-to-SQL in Cross-domain Database
计算机的可执行语言（例如SQL语句与存储结构紧密相关）与自然语言存在不匹配问题，给复杂问题的语义解析带来了困难。为了解决这个问题，论文中设计了一种中间语言。先将自然语言转换成中间语言，再将中间语言转换成SQL，可以提高语义解析的准确率。该论文已在ACL 2019会议发表。

3. Leveraging Adjective-Noun Phrasing Knowledge for Comparison Relation Prediction in Text-to-SQL
在自然语言理解中，知识的运用非常重要。本文以Adjective-Noun Phrasing Knowledge为切入点尝试在Text-to-SQL中运用语言相关知识来提高语言理解的准确率。论文在EMNLP 2019会议发表。

4. FANDA: A Novel Approach to Perform Follow-up Query Analysis
在多轮式对话中，对话语句中经常存在省略或指代，需要根据上下文来理解当前语句。本文分析总结了在对话式数据分析中普遍出现的省略或指代现象，并提出了将当前语句补充完整的方法。论文发表在AAAI 2019。

5. A Split-and-Recombine Approach for Follow-up Query Analysis
本文中提出了一个处理上下文的split-recombine框架，能够用来有效处理对话语句中经常存在上下文省略或指代问题。这个框架既可以用于将当前语句补充完整（restate），也可以直接生成logic form（例如SQL）。论文发表在EMNLP 2019.

6. QuickInsights: Quick and Automatic Discovery of Insights from Multi-Dimensional Data
该论文创新性地提出了多维数据中洞察 (insights) 的一种普遍适用的抽象定义，并系统化地提出了面向大规模多维数据的有效的洞察挖掘算法。文章发表在SIGMOD 2019。相应技术从2015年起转化到微软Power BI，Office 365等产品中。

7. TableSense: Spreadsheet Table Detection with Convolutional Neural Networks
文章提出的基于深度学习模型的TableSense技术，可对电子表格进行区域检测和表格结构理解，并将其转换为结构化的多维数据进行自动分析。这项技术已转化到微软的Office 365产品中，随Ideas in Excel功能全面上线。文章发表在AAAI 2019。

8. Text-to-Viz: Automatic Generation of Infographics from Proportion-Related Natural language Statements
该论文发表在IEEE VIS 2019，首创了由自然语言自动生成数据信息图（Infographics）的技术。该技术使人们能够非常容易的获得大量数据信息图的设计，用于加强数据故事的表达。

9. DataShot: Automatic Generation of Fact Sheets from Tabular Data
该论文发表在IEEE VIS 2019，提出了一种从数据表格出发自动生成由多个数据信息图组合而成的数据海报的技术。

10. Towards Automated Infographic Design: Deep Learning-based Auto-Extraction of Extensible Timeline
该论文提出了一种自动从图片中抽取数据信息图模板的技术。利用计算机视觉技术，将时间轴的设计图片分解成多个视觉元素并重新组合，使可视化时间轴设计图片的重用成为了可能。该论文发表在IEEE VIS 2019。

11. Visualization Assessment: A Machine Learning Approach
该论文发表在IEEE VIS 2019，探索了自动评估可视化图片特性的方法，比如记忆度、美观度，让机器学习的算法在可视化的生成、推荐中发挥作用。

12. Supporting Story Synthesis: Bridging the Gap between Visual Analytics and Storytelling
该论文定义了一个新的故事生成框架，将数据分析到结果展示的过程抽象成普遍的故事生成流程。该框架支持交互式地从复杂的可视分析结果中生成可以让普通读者理解的故事。论文发表在TVCG 2019。

13. Cross-dataset Time Series Anomaly Detection for Cloud Systems
文章提出了基于迁移学习和主动学习的跨数据集异常检测框架，可以有效地在不同时间序列数据集之间进行迁移，只需要1%-5% 的标注样本量即可达到高精度检测。文章发表在系统领域顶级会议USENIX ATC 2019上。

14. Robust Log-based Anomaly Detection on Unstable Log Data
文章提出了基于深度学习技术的模型LogRobust，可有效克服日志不稳定问题，在快速迭代的实际工业数据中取得了出众的效果，该研究发表在了软件工程领域顶级会议FSE 2019。

15. An Intelligent, End-To-End Analytics Service for Safe Deployment in Large-Scale Cloud Infrastructure
该文章提出了时空相关性模型，在时间和空间的双重维度上对比故障前后的系统状态，为故障诊断提供线索，该模型在安全部署中取得了很高的准确率，研究成果将发表在系统领域顶级会议NSDI 2020上。

16. Outage Prediction and Diagnosis for Cloud Service Systems
该文章提出了一种智能的大规模中断预警机制AirAlert，AirAlert收集整个云系统中的所有系统监控信号，采用鲁棒梯度提升树算法做预测，并利用贝叶斯网络进行诊断分析。相关研究短文发表在WWW 2019。

17. Prediction-Guided Design for Software Systems
文章提出了智能缓冲区管理方法，基于预测导向（Prediction-Guided）框架，以机器学习预测引擎为核心，可监控集群已部署的工作负载与平台操作，对这些负载在发生故障的概率和新的容量增长需求进行预测，动态调整预留缓冲区。该方法已成功集成到微软Azure中，提高了容量配置的稳健性，减少了巨大的成本支出。相关研究将在AAAI 2020 Workshop发布。

18. An Empirical Investigation of Incident Triage for Online Service Systems
该文章基于微软 20个大型在线服务系统展开实例研究，发现错误的故障分派会导致额外的时间开销，进而验证了已有软件Bug分派算法在故障分派场景下的效果。这是首次研究故障分派在工业大型在线服务系统中的实践，相关研究发表在ICSE SEIP 2019。

19. Continuous Incident Triage for Large-Scale Online Service Systems
该文章提出一种基于深度学习的自动化连续故障分派算法DeepCT。DeepCT结合了一个新的基于注意力机制的屏蔽策略、门控循环单元模型和改进后的损失函数，可以从工程师对问题的讨论中逐步积累知识并优化分派结果。相关成果发表在ASE 2019。

20. Neural Feature Search: A Neural Architecture for Automated Feature Engineering
文章提出了神经特征搜索（Neural Feature Search，NFS），基于递归神经网络（Recurrent Neural Network，RNN）的控制器，通过最有潜力的变换规则变换每个原始特征，取得了优于现有自动特征工程方法的性能。该成果已在在数据挖掘领域会议ICDM 2019发表，在自动特征工程研究领域确立了新的技术水平。

图形学

21. Repairing Man-Made Meshes via Visual Driven Global Optimization with Minimum Intrusion
文章提出的方法修复了ShapeNet ModelNet等大型3D数据集中的模型缺陷。该文章发表在SIGGRAPH Asia 2019。

22. Learning Adaptive Hierarchical Cuboid Abstractions of 3D Shape Collections
人造物体如家具通常具有结构化特征，人类可以容易地将这些物体抽象化为简单的几何形状的组合，如长方体，便于物体理解和分析。该论文通过在同类物体上进行无监督学习，生成具有自适应并层次化的长方体抽象表达。文章发表在SIGGRAPH Asia 2019。

23. A Scalable Galerkin Multigrid Method for Real-time Simulation of Deformable Objects
一种在无结构网格上的Galerkin多重网格法，其极大加速了现有柔性体仿真技术的性能。该方法可实时仿真含近百万有限元的柔性体模型，将人们在虚拟世界中可交互的模型复杂度提升了一到两个量级。文章发表在SIGGRAPH Asia 2019。

24. Deep Inverse Rendering for High-resolution SVBRDF Estimation from an Arbitrary Number of Images
该论文提出了一种在纹理材质本征空间进行优化的方法，实现了针对任意数量输入图片的纹理材质建模。在给定图像数量较少时给出视觉上合理的结果，而随着输入数量的增多，逐渐得到更为精确的重建结果。文章发表在SIGGRAPH 2019。

25. Synthesizing 3D Shapes from Silhouette Image Collections using Multi-Projection Generative Adversarial Networks, CVPR 2019.
利用二维轮廓图像学习三维形体生成。该方法仅需要对于某一类物体的大量二维轮廓图像，并不需要任何对应关系，它通过该类别物体在不同方向上的轮廓所具有的特征分布，学习并生成满足这些训练数据分布的三维形体。

数据智能

图形学

关注微软亚洲研究院