微分几何怎么应用在人工智能(北大智能图形学初探)
微分几何怎么应用在人工智能(北大智能图形学初探)正如恩里科·费米所言:If you can not create it,you cannot understand it.1 三维建模通过研究三维对象的几何与行为,这个领域——计算机图形学,正在展示其还原世界的无限潜力。在与陈宝权、王滨、刘利斌三位学者的交流中,我们可以感受到,尽管元宇宙还遥不可及,但“种子早已萌芽”。陈宝权主要研究几何也就是三维建模,王滨和刘利斌主要研究行为,也就是物理仿真和运动控制。几何与行为正是北京大学智能图形团队重点发展的研究方向,二者构成了“形”与“力”的二重奏。
作者丨青暮
编辑丨岑峰
元宇宙被认为是互联网的自然迭代阶段,是人类社会在发明语言、文本、数学、图像之后,信息爆炸逼迫我们将数据不断抽象为高维数据的当下,将交流媒介彻底具象化的另一极革命。有句话说得好,“文化即元宇宙”。元宇宙的世界源于现实,又别于现实、超越现实,我们可以轻易在其中跨越物理距离面对面交流,超越现实的含义之更深层的,乃是超越规则。但在超越规则之前,我们在第一步上仍显稚嫩。
而如今,也正有无数学者正在探索元宇宙的第一步,即还原现实。在视觉领域,他们研究如何获取城市高楼的三维形状,如何模拟樱桃与水面的接触,以及如何让几何人学会走路和跳舞。
通过研究三维对象的几何与行为,这个领域——计算机图形学,正在展示其还原世界的无限潜力。
在与陈宝权、王滨、刘利斌三位学者的交流中,我们可以感受到,尽管元宇宙还遥不可及,但“种子早已萌芽”。陈宝权主要研究几何也就是三维建模,王滨和刘利斌主要研究行为,也就是物理仿真和运动控制。
几何与行为正是北京大学智能图形团队重点发展的研究方向,二者构成了“形”与“力”的二重奏。
1 三维建模
正如恩里科·费米所言:If you can not create it,you cannot understand it.
“图形学也是在人们探索理解这个世界的一个必经阶段,同时重建世界也是图形学一直在倡导的一个理念。在多年的累积中,图形学已经累积了大量关于世界的知识。比如物体的几何形体表达、物理特性、光照等等。要实现视觉智能,图形学是很重要的一步。”陈宝权说到。
陈宝权,北京大学博雅特聘教授。研究领域为计算机图形学、三维视觉与可视化。2017年当选中国计算机学会会士,2020年当选 IEEE Fellow,2021年入选IEEE Visualization Academy,当选中国图象图形学学会会士。
计算机上还原的世界的时间是可回溯的。在2022年冬奥会上,陈宝权就为我们展示了这一时间魔法。观众用手机观看冰球比赛时,可以随时暂停比赛画面,并可360度转动冰球场,品味精彩瞬间。
这一技术也仅仅是陈宝权研究三维建模多年经验的小试牛刀。陈宝权从2000年就开始关注对真实场景进行三维建模。在2009年为深圳构建城市3D建模的项目中,陈宝权团队采用了激光扫描等手段得到现实场景的三维点云,再进行重建,这项技术已成为智慧城市建设的基础。
2008年陈宝权回国之初创建的“城市建模仿真与可视化“系列国际论坛第一届,聚集了国内外该领域许多顶级专家来参会。
2009年陈宝权创建的基于移动车载激光扫描的大规模城市场景三维重建团队。
由于室外环境限制,比如树木的遮挡,不可能得到建筑物每个面的点云数据。因此,陈宝权团队提出了结合先验知识的方法,通过从稀疏点云中识别平面区域,计算平面之间的交线和交点,以得到完整的多边形,其中平面区域是通过聚类得到的。下图给出了稀疏缺失的三维点云、聚类后的点云以及重建后的三维模型。
稀疏点云三维重建。图源:大规模城市场景建模与理解
综合二维图像和三维点云的优点,陈宝权团队在论文“2D-3D fusion for layer decomposition of urban facades”中提出了 一种融合二维图像和三维点云的分层建筑物墙面重建方法。通过将三维点云的深度信息赋予二维图像,还原了高分辨率、无噪声的建筑物模型。下图给出了三维点云与二维图像、 注册后的点云和图像、重建后的建筑物三维模型以及粘贴纹理之后的模型。
融合点云和图像建筑物三维重建。图源:大规模城市场景建模与理解
建筑和植物是城市中最常见的两类实体,其三维模型也是城市三维场景的主要构成要素。不同于具备规则性的人工建筑,植物属自然产物,三维结构特征更加复杂。尽管也可以采用规则方法建模植物,但基本上很难描述给定的模型或真实树木。基于实际采集数据(一般是图像和点云),则可以得到低层次的模型描述,比如三角网格模型。
陈宝权团队在论文“Automatic reconstruction of tree skeletal structures from point clouds”中提出了基于激光点云的自动树木骨架重建方法,通过一系列全局优化方法在稀疏的、不完整的、嘈杂的点云中适配树木的骨架结构。该算法无需对点云进行分割,即可重建互相交叠的树枝结构。
基于激光点云的自动树木骨架重建。图源:大规模城市场景建模与理解
意识到同一树种局部结构存在的相似性之后,团队又在论文“Texture-Lobes for Tree Modelling”中提出了基于 Lobe 表示的树木快速三维建模方法,以克服前述方法的效率局限性。
基于Lobe表示的树木三维建模。图源:大规模城市场景建模与理解
近十年后,在智慧城市快速发展的年代,场景规模越来越大、颗粒度越来越细、更新频率越来越高,成为了智慧城市三维建模的新要求。
在原始采集数据稀疏甚至缺失的情况下,基于先验知识和几何内在规则约束的建模方法有局限性,陈宝权团队提出了“主动式”扫描机制,将采集和重建构成一个闭环,为重建提供数据保障。而主动式采集可以依靠机器人或人来完成。
为此,陈宝权团队提出了城市场景渐进式构建思路。该思路认为,城市场景规模大且永远处在快速变化当中,集中式重建的成本昂贵且其完整性和实时更新变得不可能,应该构建一种分布式机制来实现对重建数据的扩充和修正,由此达到城市场景的瞬时更新。智能体(单/多机器人或人群)具有主动探索能力,是场景渐进式构建的主要载体。
在论文“Autoscanning for coupled scene reconstruction and proactive object analysis”中,陈宝权团队提出了基于场景物体置信度引导的单机器人主动探索方法,通过对低置信度场景进行交互以验证并提高结果准确性,从而逐渐精细化室内场景。
而到了城市室外场景时,由于环境是开放的,无法事先进行建模,直接应用相同方法会导致效率问题。“对于一个不断变化的场景,机器人要如何进行自我导航、场景探索,也是一个难题。毕竟其中不仅涉及机器人的运动,还涉及到机器人和环境的交互。”陈宝权表示。
为此,在论文“Autonomous reconstruction of unknown indoor scenes guided by time-varying tensor fields”中,陈宝权团队提出了一种时变张量场驱动的未知室内场景自动重建策略,在规划机器人移动路径时,对城市场景对象进行约束和更新,生成机器人路径指导其进行探索,从而兼顾效率和精度。
一台机器人的工作效率始终有限,因此,多机器人协同探索就成了自然的选择。“机器人协同的难点在于,N个机器人能不能达到N倍的效率。我们甚至还希望达到1 1>2的效果,比如两个机器人之间的信息融合可以让彼此对环境都更加了解,这是所谓协作的关键。”陈宝权表示。
在论文“Multi-robot collaborative dense scene reconstruction”中,陈宝权团队提出了基于最优质量传输理论的多机器人协同探索以及主动渐进式重建位置城市场景模型的算法。最优质量传输理论的目标是求出两个分布(或者说集合)之间的映射关系,使得该映射在给定的度量下代价最低。
在多机器人扫描重建问题中,把机器人看作是场景扫描任务的“供给方”,未知环境看作是场景扫描任务的“需求方”,而机器人实际执行扫描任务所需要的代价(如移动距离)作为映射的度量。以此为基础,可以通过求解最优质量传输,可得到机器人和扫描任务之间的映射,使扫描代价最低。
一种用于未知室内场景的多机器人协同密集重建算法。图源:Multi-Robot Collaborative Dense Scene Reconstruction
“整体上,我们既需要用全局规划来统筹所有机器人之间的协作和任务分配,也要基于机器人的局部视角去规划其单独就能完成的任务。这是这类任务的算法设置的基本策略。”
世界不是静态知识的集合,陈宝权在科研征途上也不断拥抱进步,采用先验知识结合数据学习的方式,见证了几何建模在尺度规模以及精细度不断延展的历程。然而,如果仅仅局限于几何建模本身,这样的世界也是静态的。
“从生成一个世界到理解一个世界,两者已经密不可分。生成是为了理解,而理解了之后也是为了更好地生成,两者在不断地互相增强。”理解不止是将物体进行分类、语义分割,而是要还原其在现实世界中与其它物体接触、碰撞的真实力学乃至动力学反应。
“几何建模是物理仿真的基础。通常我们要先得到物体的几何参数,再根据几何形状的动态变化去推测物理参数,比如王滨老师做的荷叶研究。刘利斌老师做的人体运动控制研究也一样,要控制一个人的姿态,也需要先获取真实的人体数据来学习。但面对自然现象,几何建模与物理仿真有时需要同时进行,通过全局优化来获得对现象的动态重建。”陈宝权表示。
2 物理仿真
“通过外力让一片荷叶晃动,我们就得到了荷叶的动态数据,据此不仅可以推断出荷叶的几何形状,还可以推断出荷叶的物理参数。”王滨说到,“这些物理参数不仅包括材料的硬度,还包括阻尼特性、原始形状等等。”
王滨,现任北京通用人工智能研究院(BIGAI)全职研究员,在加入BIGAI之前,她于2017年至2021年担任北京电影学院未来影像高精尖创新中心研究员。
王滨博士毕业于北京航空航天大学,期间研究方向是虚拟现实和人机交互,在当时来说是一个很前沿的方向。之后她到UBC进行访问研究,主要进行手部的仿真和模拟。
在访问研究的过程中,王滨逐渐对物理仿真感兴趣。由于物理仿真的门槛较高,于是王滨从碰撞检测的课题入手,逐渐进入仿真领域,并进行深耕。
王滨告诉我们,研究物理仿真之前,在数学和物理方面都需要深厚积累,也需要很强的代码实现能力,“在算法实现方面,物理仿真的代码量较大,而且没有很多开源的项目作为实现基础,我们往往需要从零开始造轮子。另外物理模拟的计算量大,因此需要较好的算法结构设计和高效的实现。为了提高计算效率,一些计算工作还需要转移到GPU上,也对编程能力有一些更高的要求。”
在数学方面,物理模拟主要涉及数值计算和最优化的数学理论支撑,“比如在逆向分析算法中,就需要优化算法基础。在模拟中,也需要进行大型线性系统的求解,因此涉及到算法的选择和数学近似等数值计算工作。”王滨说到。
后来,王滨到新加坡国立大学进行物理仿真领域的博士后研究工作,“材料仿真建模是当时的萌芽课题,也是在那个时候和深圳先进研究所有了深入的交流和合作。”回到北京后,王滨加入北京电影学院未来影像高精尖创新中心工作5年,最近加入北京通用人工智能研究院,一直和北京大学及国外高校展开合作,进行过很多物理仿真模拟的研究,例如材料反向建模、流体模拟、磁性物质模拟等。
荷花的物理参数推断就属于材料反向建模研究,相关成果发表在论文“Deformation Capture and Modeling of Soft Objects”中,由王滨与刘利斌等人合作完成。
系统可以仅从运动学数据中捕获和重建软物体的动力学模型。然后,利用这一模型可以合成满足用户指定约束并响应动态扰动的新运动。上图左:一只正在行走的恐龙;中间:一个锅架在跳跃;上图右:一个衣架在跳跃。下图:荷叶在人造风场中晃动。图源:Deformation Capture and Modeling of Soft Objects
图形学的交互驱动可以分为两个分支,一个是几何数据驱动,一个是力学驱动。几何数据驱动是指对一个现象进行致密几何形状采样,而后通过其进行插值并得到结果,而荷花的研究工作是基于力学的驱动。
“整体的交互是按照物理模型进行驱动,而模型的关键参数是通过数据驱动的方式求解的。例如物体的软硬程度、阻尼系数和参考形状(失重状态下的自然舒张状态)。这是从运动数据逆向推导出系统力学和物理系数的建模方法。”王滨说到。
反向材料系数生成后,也可以对其进行修改和定制,迁移到其他类似的物体上。基于运动数据驱动的模型反演也可以用来拟合那些现实中不存在的超级材料。“反向材料建模的目的是减小仿真和真实的差异,当我们需要控制模型的某些参数,使其具有新的特性时,模型也可以通过参数调整进行人为干预。”
在材料模型和系数的设计方面,一般不使用AI方法进行表述,“因为它通常无法满足很多先验的约束,直观理解就是很多硬约束条件无法先天满足。数据少、容易过拟合、泛化性差。深度学习的耦合性很强,目前来说无法或很难解释各个参数的控制变量,也无法从端到端的模型学习工作中确定其可解释意义。”例如,由于其中数据缺失和噪声严重,可变形物体的反向材料建模就需要很好地将数据驱动与先验知识相结合。
材料反向建模通常限于单个物体,不会进行多个物体交互的场景数据采集,因为涉及接触力等很多参数是无法测量和采集的。不过,王滨依然在朝这个方向迈进。
在论文“Solid-Fluid Interaction with Surface-Tension-Dominant Contact”中,王滨与陈宝权等人合作研究了强表面张力下的的流固耦合模拟——具有表面张力主导接触的固流相互作用。在这项研究中,无论是钢回形针、樱桃、秋叶还是水黾机器人,都可以在表面张力的作用下浮在水面,并荡漾出了真实自然的波纹。
三向耦合方法可以模拟固体和液体之间以表面张力为主的接触动力学,包括钢回形针的静态接触、水面上的樱桃、秋叶在小溪中漂浮和旋转 ,以及由其关节驱动的水黾机器人。图源:Solid-Fluid Interaction with Surface-Tension-Dominant Contact
这种固液表面接触的最大特点是强表面张力,比如钢回形针的密度是水的8倍,但仍然可以漂浮在水面上,就是因为水的表面张力系数较高。
对于在水面上的固体物体,它的力平衡可以理解为重力