清华胡事民教授：从图形学到灵境计算

taotao_2016 2022-07-20 发布于北京

展开全文

您想知道的人工智能干货，第一时间送达

灵境计算是如今元宇宙、全真互联网、web3.0等新兴概念的高度概括，图形学在其中占据着重要的角色，那么实现灵境计算的核心技术包括哪些呢？在2022智源大会上，针对图形学和灵境计算，来自清华大学计算机科学与技术系的胡事民教授作了题为《从图形学到灵境计算》的报告。

胡事民，清华大学计算机系教授，可视媒体研究中心主任。 2002年获得国家杰出青年基金资助，2006年-2015年担任国家重大基础研究（973）计划项目首席科学家，，2016-21年20担任国家自然科学基金委创新群体项目学术带头人。主要从事计算机图形学、虚拟现实、智能信息处理和系统软件等方面的教学与研究工作，已在ACM/IEEE Transactions和CVPR等重要国际刊物和会议上发表论文100余篇。曾担任PG、SGP、CVM、VR、EG、SIGGRAPH ASIA等多个国际重要会议的程序委员会主席和委员，曾任和现任IEEE、Elsevier、Springer等多个期刊的主编、副主编和编委。

整理：沈磊贤

编辑：李梦佳

计算改变人类文明进程

计算机是人类最伟大的发明之一，计算改变了人类文明的进程。计算技术和系统每10-15年会发生一次重大变革，计算技术的发展促使了新形态的诞生。60年代科学计算兴起，当时，核武器等相关的大量科学计算，催生了大型计算机。到了70年代，企业的生产需求使得小型机和服务器得到广泛应用。而到了90年代，PC机日渐普及。2000年左右，互联网成为我们生活的必需品，而以智能手机为代表的移动互联网在2010年左右成为主流。而在如今的时间节点，未来最重要的目标是什么？从计算技术角度来讲，VR/AR技术（也称灵境计算）将会为计算带来巨大的变革。

计算机图形学改变了计算机的形态

图形学是利用计算机研究图形的表示、生成、处理和显示的科学。最早MIT在旋风1号计算机上利用显示器搭建空中防御体系，当时的博士生Ivan Edward Sutherland提出了图形学的概念，后获得了1988年的图灵奖，博士论文是人机交互通讯的图形系统。后来他的学生Alan Kay提出了面向对象编程，使用了窗口图形界面技术，他也是PC机概念的提出者，并获得了2003年的图灵奖。

此后，图形学被广泛应用在各个领域，包括CAD和各种产品设计、图形渲染，再后来Patrick M. Hanrahan和Edwin E. Catmull获得2019年图灵奖，他们的工作将图形学技术和软件进行了很好的结合，改变了整个好莱坞动画工业生产线，对电影制作和计算机图像生成产生了巨大影响。

图形学既然能生成逼真的好莱坞大片甚至是超越真实的场景，那么它一定也能够给我们的生活工作带来更大的变化。可以说，图形学改变了计算机的形态，使得计算机和移动终端、智能终端成为人类最亲密的伙伴。灵境计算，VR设备的发展、图形技术的发展，特别是最近几年人工智能深度学习的快速发展，这些技术飞跃结合在一起的化学效应催生了一些新的计算形态。

而国内方面，早在1990年，钱学森先生在给汪成为院士的书信中，已给VR起名为“灵境”，还解释说此译名“中国味特浓”。进入新世纪，年2020腾讯马化腾提出“全真互联网”的概念，21年20以Facebook、微软代表的国际企业也开始炒作“元宇宙”。最近国内各个地方政府都在制定科研发展规划，这当中上海已经把“元宇宙”写进了规划，而北京市政府准备以web3.0的名义推动相关行业的发展。这些概念放在一起可以用“灵境计算”来描述。

灵境计算的核心技术

从图形学角度来看，灵境计算的核心技术涉及到灵境构建，真实世界的数字化、虚拟化身、虚拟场景的合成。灵境和现实世界之间需要理解和交互，涉及到场景语义理解、场景交互、心理计算，同时又需要平台和软硬件的支撑，包括图形平台、AI框架、芯片、VR/AR设备、操作系统等。

灵境构建

灵境构建是针对人、物、场景进行数字化和虚拟化，为灵境提供“客观物理世界”。对物、景、人分别需要关注真实世界数字化、虚拟环境合成以及虚拟化身。

真实世界数字化。胡事民教授团队希望基于视觉相机扫描，采用三维重建技术实现对真实世界的数字化：

案例1-大场景高精度重建：
构建深度数据不确定度的概率模型，抑制噪声并保持几何特征，提高了重建精度。这是清华大学2018年发表在ACM TOG上的工作。
案例2-大场景三维全景重建：
通过拼接多个消费级相机扩大视野，由定点旋转生成三维全景图，达到毫米级的重建。下图的左边是一个可以原地旋转的机器人，上面搭载了三个拼接在一起的Kinect。这是清华大学年2020发表在ACM TOG上的工作
案例3-三维场景的隐式重建：
将场景表示为稀疏的概率局部隐式体素，通过体素内采用隐向量定义的神经隐式场表示，可以把在线三维重建内存减少90%。这是清华大学年2020发表在CVPR上的工作。

虚拟环境的合成。胡事民教授团队通过提取虚拟对象的关联关系，快速生成合理的虚拟三维场景。

案例4-满足用户偏好的场景交互合成：
基于关联关系和用户历史输入的联合优化，实时推荐鼠标位置的侯选物体。对于一个虚拟场景，系统根据用户的鼠标位置自动推荐侯选的摆放物体，快速完成场景构建。这是在TVCG和ACM MM上的工作。
案例5-满足几何约束的VR场景构建：
基于关联关系和真实场景几何覆盖的联合优化，合成布局合理且与真实场景几何一致的虚拟场景。这是21年20发表在TVCG上的工作。

案例6-沉浸式街景漫游：
基于街景数据，采用AI算法重建合成新的视角，实现沉浸式街景漫游。下图中的学生在清华教学楼走廊里行走，戴上头盔后看到的是清华的校园。其实现原理是将腾讯街景数据通过AI重建和插值，构建一个三维沉浸式街景漫游。

虚拟化身。构建写实数字人需要利用AI技术，通过便捷设备采集图像重建高精度人体几何、编辑纹理材质，实现高效和规模化的写实数字人的生产。数字人非常受关注，因为模型资源和计算量消耗比较大，难以在端侧实现。在目前的网络带宽条件下，如果要构建全真写实数字人挑战巨大，胡事民教授团队尝试在灵境环境中做个性化的卡通虚拟形象，从真实人脸照片中生成可驱动三维卡通人脸，支持语义化表情驱动。

理解与交互

灵境计算的第二个核心技术是理解与交互。虚拟化身在灵境空间，需要和场景空间做一些交互和理解。理解交互首先是研究真实和虚拟场景的语义理解，探索人对灵境空间的高效交互模式以及灵境空间对人心理和认知的影响。这当中涉及到灵境空间的语义理解、高效交互和心理计算。

语义场景理解。胡事民教授团队希望通过视觉等感知通道，采用深度学习方法，理解场景中的基本语义单元，支持精准交互。

案例1-显著性实例分割：
通过包围盒周围的语义信息提高了显著性实例分割的结果。

案例2-人像分割：
利用人体模板实现视线遮挡情况下的高精度人体分割，这是语义理解中的底层技术。这是清华大学2019年发表在CVPR上的工作。

案例3-三维场景语义理解：
一种适应在线的三维语义理解的超体素卷积和增量式聚类方法，既保证效率，又实现更高精度语义分割效果。这是清华大学21年20发表在ACM TOG上的工作。

虚拟场景的高效交互。总体目标是希望基于人的交互意图分析和交互误差建模，让虚拟环境交互更“贴心”，更“省力”。

案例4-速度感知的手部运动重映射：
以速度为线索感知用户交互意图，测量手部交互运动误差，实现虚拟交互中手部运动的重映射。

案例5-基于强化学习的重定向行走：
人在行走时会看到一个视景变化。但是因为物理空间很小，如果想要看到更广阔的空间，在碰到墙壁时就需要转身，这称为行走重定向，在虚拟现实中重定向发生越少越好。人在闭着眼睛走时，对自己的行为有一定容差的，比如用户实际在偏转，但以为自己在走直线。胡事民教授团队利用这一心理上的特点，通过强化学习技术构造行走偏转和重置的统一化框架，减少行走重定向和优化虚拟环境轨迹，使得漫游重置次数减少30-70%。这是清华大学2022年发表在TVCG和VR上的工作。

灵境空间的心理计算。灵境空间是一个虚拟场景，需要建立灵境空间对人虚拟影响的可计算模型，实现虚拟内容的虚拟影响度量和操控。“真实”是由意识构成的，人会利用知识，对支离破碎的外界刺激进行修补，形成“真实”的认知。相关工作探究了人的心智在虚拟环境中的可塑性，虚拟现实对人的行为与身份认同的深度操控，和虚拟沉浸和化身对主体的长期影响。

案例6-VR教学虚拟凝视：
老师注视学生有正面作用，学生可以学习更加专心。现实中，老师需要把视线平均分配到学生身上，VR教学虚拟凝视，使得每个学生都认为自己是唯一被老师注视着的人。
案例7-VR谈判：
身高较高的虚拟谈判者更容易谈判成功，并且在虚拟现实中获得的信心，在真实世界中依然持续。

除此之外，未来的研究需要进一步建立灵境空间对人心理影响可计算模型，实现虚拟内容心理影响度量和虚拟内容的可控生成。未来趋势从定性到定量，从计算模型到实际应用会进一步发展。

平台与框架支撑

平台支撑灵境计算的各种应用，各种智能芯片、VR设备都快速发展，而灵境计算的操作系统还正处于探索阶段，技术软硬件平台都面临“卡脖子”问题。

三维图形内容处理是数字内容产业的核心技术，也是虚拟现实、智慧城市、自动驾驶、数字孪生共性的基础。目前，代表性的业界图形平台主要是国外的Unity、Unreal，其占有率超过50%，处于市场统治地位，工具链比较成熟，但是架构和采用技术相对固化和落后，版本间兼容性差，对新技术、新设备的支持并不友好。

尽快构建国产智能图形平台非常重要。下图是不鸣科技自主研发的混沌引擎-Chaos所生成的效果，效果显著。这类开源的图形平台应该支持神经渲染、实现复杂场景、材质和光照效果的高效绘制，共同努力打造开源国产的三维图形平台，构建生态，使得图形平台更加有保障。

AI框架是目前灵境计算中非常核心的支撑技术。计图是国内首个高校主导的开源深度学习框架，包括两个重要的创新，一是统一计算图，二是元算子融合。

在深度学习框架里，每个框架都有大量算子。比如Tensorflow有2000多个，PyTorch有700多个，这些庞大算子库的维护和优化都非常困难。计图创新在于把神经网络计算需要的基本算子进行归纳和总结，提出了18个元算子，提出“元算子融合”的概念，这样做的优点是效率高，易于开发，统一优化。

计图框架的特点是多了元算子层，由元算子合成成百上千个算子，支撑人工智能的应用。元算子被分为三类：重索引算子、重索引化简算子和元素级算子。重索引是一对多算子，例如广播算子把一个向量变成矩阵。重索引化简是多对一算子，例如累加算子把一个矩阵每行相加得到一个向量，元素级是一对一算子，例如两个向量通过逐元素相加变成新的向量。三类元算子放在一起能够完成各种算子的合成，支持人工智能的训练和推理。元算子有一个很好的性质就是反向传播闭包，任何由元算子合成的算子，反向传播也可以由元算子合成，保证理论体系完备性。

元算子特殊的益处使得计图在人工智能国产生态上具有非常大的优势。对任何一款芯片来说，只要适配计图中的18个元算子，其他上百、上千个算子可以自动完成适配。胡事民教授团队对国产芯片的技术路线做了分析，对标国外英特尔、AMD、NVDIA等，国产芯片像龙芯、飞腾、鲲鹏等CPU，尽管技术路线不同，都可以通过C++代码实现Jittor框架与芯片的适配；对国产的GPU和AI芯片，尽管采用技术路线差异非常大，但通过采用CUDA、ROCm、OpenCL、BANG、ACL等，也可以将这些芯片都支持起来，并有望构建全国产的人工智能生态。

第二个计图创新点就是统一计算图。计算图是深度学习框架用来描述模型的数据结构，从输入到输出，中间有很多算子来实现训练。谷歌提出了“静态图”的概念，把整个计算图统一发送到硬件设备上进行优化，取得非常高的效率，缺点是灵活性不高。Facebook反其道而行，把计算图做成动态，根据中间运算结果选择不同的分支，动态算子发送，灵活性高，缺点是不能做全局优化。清华统一计算图希望把两者的优点结合起来，既能够做高效优化，又保持灵活性，提出动态切分、静态子图的概念。在静态子图上做优化，又不失动态的优点。进一步还把算子再分解成元算子，在元算子层面再进行优化，使得计图性能上有比国外框架更大的优势。

计图框架目前也有一些新的进展：

点云学习：首次将Transformer用于具有不规则性和无序性的点云深度学习，提出新的邻域嵌入和注意力机制，增强其特征表示能力，在点云分类、点云部件分割和点云法向量估计等任务上都取得了最好结果。团队提出的点云学习框架模型PCT受到学术界很大的关注，去年刊登在清华出版社的CVM杂志上，被引用了194次。
网格学习：对不规则的网格数据，提出了一种基于细分结构的网格卷积网络，通过构造多分辨率的层级表示和定义面片卷积运算和采样方法，使得主流的图像骨干网络模型可以方便迁移到三维模型的学习任务。
可微渲染库JRender：计图的可微渲染库目前实现两个主流的可微渲染器N3MR和SoftRas，支持金属度、粗糙度材质渲染，以及表面渲染和大场景的体渲染。在同样芯片上采用计图框架可以比采用PyTorch的渲染速度提升4.9-21.7倍。

总结

灵境计算是相关软硬件瓶颈突破后的必然，有望成为后疫情时代生产生活的新形态，但仍有大量问题尚未解决。AI框架是灵境计算最主要的支撑，未来的图形平台，灵境中的理解和交互，必将构建在AI框架上。胡事民教授最后强调，国内同仁需要共同努力，形成灵境计算的关键技术引领和国产化灵境计算的软硬件生态。