2020开年解读：数据洞察对话即得，三维构建直面挑战

taotao_2016 2020-01-08

展开全文

对于计算机科学领域的探索与研究拥有21年“工龄”的微软亚洲研究院，在刚刚过去的一年中，在 ACL、EMNLP、NeurIPS、ICML、AAAI、IJCAI、CVPR、ICCV、SIGGRAPH、KDD、WWW、SIGCOMM、NSDI、ICSE、SIGMOD、IEEE VIS 等计算机科学国际顶级会议上共发表了230余篇论文。岁末年初是温故知新、瞻望未来的时刻。在2019年最后一天，我们盘点了机器学习和AI系统方面的突破创新与实践成果，本文我们将聚焦数据智能与计算机图形学的领域进展，并探索未来的研究趋势。

随着人工智能技术的不断进步，数据的分析和可视化变得越来越智能，从交互界面到洞察分析，再到分析结果的展示等各层面，都因为 AI 发生了颠覆性变革。与此同时，大数据和人工智能的快速发展，也让虚拟世界与现实世界的交融更进一步，让计算机图形学能够直面应对更多新的技术挑战。

（注：点击“阅读原文”或今日2条推送，即可查看文中提及的相关论文详细信息列表）

“AI+数据”的未来：

与数据对话，所见即结果

如今，不少企业已经将“数据”列为一项核心资产，并且成立专有部门去管理和运营。如何利用机器学习和人工智能技术，赋予数据分析和可视化更多的智能，逐步降低数据分析和可视化工具的使用门槛和成本，使其更简单、更高效、更强大，是微软亚洲研究院的研究员们一直以来积极探索和研究的方向。

在数据智能研究的三个阶段：交互界面、数据 Insight（洞察）分析、以及分析维度和结果的可视化展示，微软亚洲研究院过去一年拥有诸多研究进展，并且在微软的 Excel、Power BI、Office 365 等多个产品中实现了技术转化，同时，在大规模云服务的智能运维（AIOps）中更是取得了显著的实际应用效果。随着 AI 技术在数据分析和可视化领域的深入渗透，数据的“智能”将在不久的将来大规模爆发，帮助人们从数据中获得更多价值，进而做出更好的决策或行动。

对话式数据分析：我问它答，交互界面越来越智能

对话式数据分析通过将自然语言理解技术引入到数据探索和分析中，可以提供更直观、易用、快速、有效的基于自然语言的交互方式，降低了数据智能系统的使用门槛。尽管基于 AI 的对话式数据分析的核心技术在学术研究中已经取得了不少成果，但对话式数据分析系统的真正落地还有很多亟待解决的问题。

首先，对话式数据分析在实际应用中需要面向不同的领域和不同的数据集，因此算法和模型需要具备跨数据领域工作的能力，而且要在事先无法获取这些领域数据的条件下也能工作；其次，对话式数据分析的算法和模型需要具有很高的可解释性，实际应用中需要让普通用户能够理解模型给出的结果，同时开发人员也能易于调试；再次，全球化能力是模型设计的重要因素，算法和模型要便于移植到不同语言场景中；最后，还要能快速且低成本地将算法和模型推广到不同的语言。

顺着这样的发展脉络与研究趋势，微软亚洲研究院在对话式数据分析领域取得了很大进展，并在 ACL 2019、AAAI 2019、EMNLP 2019 等业内顶级大会展示了研究成果。例如，微软亚洲研究院数据、知识、智能组的研究员们提出了基于多任务的学习框架，可更准确地识别和解析用户自然语言中提及的不同的数据实体及其语义 [1]；引入中间语言用于描述用户的分析语义，解决了用户的自然语言和可执行的数据查询语言之间的不匹配，以及模型在不同数据上的通用性问题 [2]；对表格知识进行理解和挖掘，将其用于自然语言的解析中，提升了自然语言理解的准确性 [3]；设计了新的语义解析算法框架，解决了用户对话上下文理解中的指代消解和省略补全的问题 [4, 5]。更重要的是，相关技术成果已经转化为 Excel 新增的自然语言查询功能。

对话式数据分析已进入 Excel 中的 Ideas 预览版功能

自动化分析：兼具深度与广度是永恒使命

数据分析通常是一个交互式探索和尝试的过程，不仅费时费力，还要求用户具备足够的分析技能和经验。微软亚洲研究院一直致力于数据分析自动化的研究，希望通过数据挖掘、机器学习、AI 等技术，进一步发挥机器的“智能”性，自动完成分析任务，并通过智能推荐的形式，引导和辅助用户的决策。

为此，研究员们创新性地提出了 Insight（洞察）的形式化描述，对多维数据分析中常见的、重要的数据模式和洞察进行系统的刻画和定义，用于描述人们期待的分析结果。并基于此，设计并实现了高效、可扩展的系统，用于对大规模多维数据中的 Insight 自动挖掘，相关技术已转化到微软 Power BI、Office 365 等产品中，研究成果也已在2019年 SIGMOD 上发表 [6]。

除描述性分析外，研究员们还进一步提高了自动分析的深度，以支持更复杂的预测性分析和指导性分析。同时利用 AI 技术对人们常用的数据分析模式进行学习，自动生成或推荐更适合的分析结果。

在拓展自动化分析的广度上，研究员们希望未来能够对半结构化数据、非结构化数据也提供自动分析。如 Excel 中半结构化的数据，易于被人类理解，但机器很难识别。微软亚洲研究院提出的基于深度学习模型的 TableSense 技术，则可对电子表格进行区域检测和表格结构理解，并将其转换为结构化的多维数据进行自动分析，这项技术也已转化到 Office 365 产品中，随Ideas in Excel功能全面上线。该研究成果已发表在 AAAI 2019 上 [7]。

数据信息图设计：一键生成，所见即所得

数据分析结果的展示，自然需要直观、高效。可视化的展现形式能够显著提高人们对于数据和信息的理解和沟通效率。而用于数据沟通的可视化直到最近几年才逐步被研究人员关注和重视，成为可视化研究中新的热点。

数据信息图（infographic）作为数据沟通可视化的一种方式，将会被越来越多人用于实际场景中，然而这却需要设计师或程序员通过专业设计软件或者代码手工完成，对于非专业人士非常困难。微软亚洲研究院与合作者通过引入智能技术，在数据信息图的自动生成、模板抽取、质量评估方面等方面进行了一系列开创性的研究，大大降低了数据信息图的设计门槛。相关研究成果发表在2019年可视化领域的顶级会议 IEEE VIS 上。

微软亚洲研究院首创了直接由文字内容生成相关数据信息图的技术 [8]。而且还研究了另一项技术能通过自动分析和挖掘数据表，将分析结果重新组织、整合成不同主题，并集合文本生成和可视化生成的方法，一键生成一张张精美的数据报表，让用户更容易理解、探索和分享数据中的故事 [9]，从而将数据表格自动生成多个数据信息图组成的数据海报。

自动生成的数据海报

此外，微软亚洲研究院还关注如何复用现有的数据信息图设计，比如专业设计师们在海报、幻灯片中经常使用的时间轴信息图一经导出成图片，就难以被重新编辑复用。研究员们使用计算机视觉技术，重新抽取设计元素，解析图像的结构，将图片中的时间轴设计抽取成动态的模板，使设计的重用成为可能 [10]。研究员们还用深度学习的方法，来探索如何评估可视化图片的质量 [11]。此外，研究员们还提出了一种可集成数据分析到结果展示整个过程的数据故事生成框架 [12]。

AIOps：数据智能走进企业云运维

如果说以上三个部分的研究涵盖了数据智能研究的不同阶段，那微软亚洲研究院前沿技术在 AIOps 领域的应用，则是大型研究实践现场，而这无疑能够给云运维带来更高效率和更低成本。随着云平台规模的扩大、管理复杂度的提升，云服务管理其实面临着前所未有的挑战，如何实时检测异常、快速响应故障、合理规划容量，促进云运维的智能化，都是该领域的重要课题。

微软亚洲研究院与微软产品部门合作，结合真实的工业场景，利用大规模数据挖掘、机器学习和 AI 技术，在云服务智能的核心问题上都有相当的突破。

异常检测与智能诊断

大规模系统异常检测主要通过监控平台的各种运行状态数据来实现，如性能指标数据（CPU 使用率、内存占用率）、系统事件、系统日志等，其中时序数据和日志数据是异常检测的两类主要数据。在基于时序数据的异常检测中，已有方法中效果最好的是有监督模型，但构造基于标注数据的有监督模型却非易事。对此，微软亚洲研究院提出了基于迁移学习和主动学习的跨数据集异常检测框架，可以有效地在不同时间序列数据集之间进行迁移，只需要 1%-5% 的标注样本量即可达到高精度检测 [13]。

基于日志数据的检测中，现有的检测模型均假设日志模板是稳定不变的，泛化能力差，微软亚洲研究院则提出了基于深度学习技术的模型 LogRobust，可有效克服日志不稳定问题，在快速迭代的实际工业数据中取得了出众的效果 [14]。

当检测出系统异常或发生故障后，快速有效的诊断是保证系统高可用性的关键，这其中的关键就是寻找相关性。微软亚洲研究院和微软的产品部门合作，提出了时空相关性模型，在时间和空间的双重维度上对比故障前后的系统状态，为故障诊断提供线索，该模型在安全部署中取得了很高的准确率，研究成果将发表在系统领域顶级会议 NSDI 2020 [15]上。在大规模服务中断的诊断上微软亚洲研究院也有新的研究进展。研究员们提出了使用贝叶斯网络建模服务之间的关系，进而定位大规模中断的可能原因，相关技术已发表在了计算机顶级会议 WWW 2019 [16]。

故障预测与容量规划

预测故障的发生并预留应对故障的容量是智能服务的杀手锏。微软亚洲研究院开发了智能的大规模中断预警机制 AirAlert，通过收集整个云系统中的所有系统监控信号，检测监控信号之间的依赖性，从而动态预测整个云系统中任何地方发生的大规模中断。该机制已在微软云服务中断数据集中得到有效验证，相关技术同样发布在了 WWW 2019 [16]。

在云服务容量规划中，传统的缓冲容量管理忽视了不同集群间工作负载的差异，导致资源利用率低下、销售成本不断增加。微软亚洲研究院的智能缓冲区管理方法，基于预测导向（Prediction-Guided）框架，以机器学习预测引擎为核心，可监控集群已部署的工作负载与平台操作，对这些负载在发生故障的概率和新的容量增长需求进行预测，动态调整预留缓冲区。该方法已成功集成到微软 Azure 中，提高了容量配置的稳健性，减少了巨大的成本支出。相关研究将在 AAAI 2020 Workshop 发布 [17]。

事故管理

大规模服务系统中计划外的事故难以避免，成熟的事故管理机制会提高事故处理效率，减小事故损失。微软亚洲研究院提出的基于深度学习的自动化连续故障分派算法DeepCT，结合了新的基于注意力机制（Attention）的屏蔽策略、门控循环单元模型（Gated Recurrent Unit，GRU）和改进后的损失函数（Loss Function），可以从工程师对问题的讨论中逐步积累知识并更新分派结果。DeepCT 可以通过少量的讨论数据，实现更准确、更高效的故障分派。相关成果发表在了软件工程领域顶级会议 ICSE 2019 和 ASE 2019 [18, 19]上。

自动特征工程确立新技术水平

微软亚洲研究院在研究解决云系统实际问题时，也反过来推动了人工智能领域的发展。在云系统场景下的机器学习任务中，特征工程是模型有效性的关键，出现了许多自动特征工程（Automated Feature Engineering）方法，但这些方法存在特征空间爆炸的问题。

为了应对这一挑战，微软亚洲研究院提出了神经特征搜索（Neural Feature Search，NFS），基于递归神经网络（Recurrent Neural Network，RNN）的控制器，通过最有潜力的变换规则变换每个原始特征，取得了优于现有自动特征工程方法的性能 [20]，在自动特征工程研究领域确立了新的技术水平。

三维空间虚拟与现实的交融，

将面对三大挑战

计算机图形学的研究人员大多都有个宏愿：构建栩栩如生的虚拟世界并将真实世界与虚拟世界完美交融，最终构建出真实的《头号玩家》场景。大数据和人工智能的快速发展，正推动着计算机图形学领域向着这个目标不断迈进。大数据变革了很多以往算法的设计与测试，并提出了更多和更新颖的用户需求；人工智能技术与图形硬件快速迭代的同时，也为图形学算法提供了新的助力和算力；计算机图形学也因此能够应对更多新的技术挑战。

挑战一：三维数据集的构造

对于三维空间物体和环境的语义理解及构造来说，大体量并具有语义结构等标注的三维数据集至关重要。尽管数据采集技术和硬件的发展让三维数据的获取越来越便捷，但与海量的图像数据集如 ImageNet 相比，目前图形学领域还严重缺乏同等量级的三维数据集。

近年来，随着诸如 ModelNet、ShapeNet 等三维数据集的出现，越来越多的研究者开始基于这些数据集构建更细粒度的标注。同时，如何有效地清理数据的瑕疵、如何交互便捷地标注、如何智能地将在少量数据上精细的人工标注传播到未标注数据上、如何建立海量图像数据和三维数据的联系，也成为图形学研究中非常有意义的课题。微软亚洲研究院针对 ModelNet 和 ShapeNet 网格数据的缺陷进行了修复 [21]，几乎不会改变网格的视觉观感。

虽然海量三维数据集稀少、大量标注数据缺失，但幸运的是计算机图形学本身却是数据生成的利器，模型构建、图像渲染、物理模拟、动画生成等图形学技术可以生成大量的模拟数据。在模拟数据上我们更容易标注，其基于物理的生成方式提供了众多先验知识和后验手段，便于无监督方式的学习。其中如何降低模拟数据和真实数据的差异，并将其差异对机器学习的影响降到最低是研究的重点，同时，少样本学习、迁移学习等机器学习技术对图形学的大数据建立也都起到了关键作用。

三维数据的信息量（如几何、纹理、物体表观）比二维图像更复杂，构造具有海量样本且信息丰富的三维数据集任重而道远。而且，另一方面，需要多少数据就足够学习出好的算法也是值得探讨的问题。

挑战二：基于深度学习的三维表达

图形学中三维表达的形式多样，三维形状就有网格、点云、参数曲面、隐式曲面等不同的表达形式，三维场景更有不同的场景图表达。如何针对不同三维表达，定义相应的卷积操作、构建适合的编解码网络，是近年来图形学和三维视觉里研究重点之一。基于体素和点云的三维学习网络是比较常用的架构，不过它们是对物体的离散采样，表达精度受限，因此近年来在其他表达上的探索和研究开始不断涌现。

例如基于三角网格和基于隐式表达的高质量三维生成工作越来越受关注。然而对于三维形状和场景的理解，底层的表达形式如体素并不能直接反映对于三维结构的理解。研究者已开始针对场景关系、物体结构、结构层次进行编码和解析，尝试将这些高层关系与底层几何细节在学习过程中解耦，但是如何定义合理的关系、结构、层次给三维数据集的构造带来了挑战。微软亚洲研究院最近在物体结构抽象表达上展开了研究工作，通过在大量相似人造物体上进行无监督学习，得到了多层次自适应的长方体化表达 [22]。

不同物体的自适应长方体化抽象表达

此外，微软亚洲研究院还看到，基于神经网络的渲染是计算机图形学中更进一步的探索，即将场景的本征表达和渲染过程，统一融合到基于神经网络的渲染系统，可以避免传统图形学在处理真实世界场景中的一些挑战。例如在建模烟雾效果、复杂的多次折射反射效果等问题时，传统的图形学模型需要非常复杂的物理仿真计算；同时，真实世界的噪声、采集数据不精确等也需要特别的处理。

基于神经网络的渲染，可以有效地将这些传统挑战由一个基于深度学习的渲染器统一建模，同时与深度学习模型高效协同工作，支持快速计算微分，实现统一优化。不过这种基于神经网络的表达还处于探索阶段，如何设计通用、有效并支持更为广阔场景的神经网络表达，是当前研究的一个焦点。

挑战三：图像、动画等内容生成，需要端到端方案

图形学的核心任务是内容生成，然而传统的三维建模、图像和动画生成具有较长且复杂的工序，如何利用大数据和机器学习便捷产生内容，实现端到端的内容输出还有几个难题需要解决。

首先，提高内容生成各环节的效率。以物理模拟为代表，提高其中的计算效率和精度一直是图形学界传统课题，各种和图形学结合的高效计算方法层出不穷。微软亚洲研究院提出了针对无结构网格的 Galerkin 多重网格法 [23]，为进一步提高模拟效率提供了有力支持。

多重网格法高效模拟三维龙模型的变形（模型含67万四面体，计算速度每秒39.4帧）

其次，生成结果逆向可微。传统的图形学生成算法由于其复杂性和某些模块的不可微性，较难通过反向优化调整输入，尤其在结合神经网络生成三维内容上，缺陷更为凸显。近年来可微渲染，即让渲染过程可微分，使得只要拥有二维图像上的监督信号，就可以把更新传递到三维几何、材质等参数上，完成逆向 3D 重建或材质建模等任务，成为研究热点。利用可微分的渲染系统以及基于学习的本征表达，微软亚洲研究院提出了支持任意图片输入的纹理材质建模方法[24]，实现了高质量端到端的纹理材质建模。另外，如何让复杂的物理模拟过程逆向可微、如何基于对变形物体的观测来反向估计物体材质和运动参数，也是计算机动画模拟的重要课题。

第三，生成内容评价考量的设计。评价生成内容的质量好坏需要考虑众多因素，如三维几何的精准度、图像的自然性、贴合用户的认知观感等。此外利用已有数据分布结合类似对抗网络的损失函数来评价也是一个有效方式。高层次的认知评价，如物体的结构、场景的结构和物体之间的关系、人与环境的关系，也将是重要的评价机制。