BBIN·宝盈-上海交大王贺升教授：从画地图到预测未来，传统 SLAM 正走出静态世界

2026-06-04 12:10:32

　　雷峰网(公家号：雷峰网)讯2026 年 6 月 1 日，国际呆板人与主动化集会（ICRA）于奥地利维也纳召开。越日上午的主动驾驶与导航陈诉环节，雷峰网GAIR 2021年夜会佳宾、上海交通年夜学传授王贺升发表了题为《Learning to Navigate: From Scene Understanding to Decision Makin》的演讲。

找到本身的位置，并理解周围情况，一直是呆板人可以或许落地的先决前提。此前的导航体系年夜多成立于”情况静止、布局不变”的假定之上，但跟着具身智能从试验室走向真实场景，实际世界的动态变化让传统 SLAM（同步定位与建图）逐渐逼近天花板，无力应答主动驾驶中的车辆行人，或者是手术呆板人眼前多变的人体构造。运动、遮挡甚至形变问题，是新一代 SLAM 需要解决的全新问题。

缭绕这一挑战，王贺升传授体系先容了从感知、建图、定位到计划的完备技能线路。于感知层面，研究团队提出联合激光雷达与视觉传感器举行多模态交融，并经由过程光流、场景流及四维重修技能理解动态情况的方案，于建图层面，则提出经由过程动态 Gaussian SLAM 及可变形三维高斯舆图，实现对于运动方针及可变形情况的连续建模。王贺升传授尤其提到，“人体这类很是可变形的情况”是当前研究重要的对于象，以期解决手术呆板人场景中的定位与建图难题。

此外，针对于具身智能遍及缺少持久影象及情况理解能力的问题，团队还有测验考试引入 NeRF 影象机制以和视觉语言模子推理能力，让呆板人不仅知道“本身于哪里”，还有能使用汗青经验及语义瓜葛辅助导航决议计划。

据王贺升传授先容，相干技能已经于矿卡、仓储呆板人、主动停车、挪动通讯平台及割草呆板人等场景中落地运用。可以看到，面临真实世界中的动态变化、繁杂语义及情况形变等挑战，呆板人导航正从传统 SLAM 走向交融世界模子、年夜模子推理与可变形情况感知的具身智能基础举措措施。

如下是王贺升于 ICRA 2026 年夜会发表的演讲精编稿，AI 科技评论基在原英文演讲内容举行了不改原意的翻译编纂：

《Learning to Navigate: From Scene Understanding to Decision Makin》

主讲人：王贺升（Hesheng Wang），上海交通年夜学

上海交大王贺升教授：从画地图到预测未来，传统 SLAM 正走出静态世界 | ICRA 2026

进修导航：从场景理解到决议计划制订

各人早上好。很侥幸向各人先容咱们近来的一些研究事情。我的研究标的目的重要是呆板人导航与操作，今天的陈诉将重点聚焦在导航部门。

正如各人所相识的那样，最近几年来挪动呆板人平台的种类愈来愈富厚，呆板人导航技能已经经广泛运用在物流呆板人、主动驾驶、家庭呆板人，甚至手术呆板人等场景。

今天我将先容呆板人导航中的一些焦点技能。起首是里程计部门，呆板人使用传感器预计自身位姿，随后思量动态情况中的运动方针，同时思量语义信息以和情况可变形的环境。于构建体系以后，咱们会得到全局舆图，然后基在全局舆图举行定位，末了完成路径计划。下面我将依次先容这些内容。

起首先容里程计部门。

咱们同时思量了激光雷达传感器及视觉传感器两类数据。起首是将激光雷达点云投影到尺度俯瞰图平面。因为咱们已经知激光雷达坐标系与相机坐标系之间的外参，是以可以将三维激光雷达点投影到图象平面上。得到这些三维投影点的中央点，并对于图象中的特性举行聚类，提取两类差别特性以后，接着咱们采用一种称为 Local-to-Global 的特性交融收集，对于这两类特性举行交融，终极获得全局特性暗示。

于此基础上，就能够经由过程位姿解码器得到初始位姿预计。以后进一步举行优化，咱们采用近似在 RANSAC 的思绪，经由过程迭代方式慢慢精辟成果，终极得到切确的位姿预计。

接下来思量动态场景。咱们的研究事情从二维扩大到三维，再进一步扩大到四维暗示。

于二维场景中，咱们起首研究光流预计，由于它是运动预计中的要害算法之一，随后扩大到三维场景流预计，进一步研究四维重修，终极实现四维建图与 SLAM。

对于在二维光流预计，咱们起首利用 Memory Bank 存储汗青光流信息，然后使用持续性约束猜测下一时刻的光流。联合当前图象，经由过程基在 DRU 的收集举行优化。于多标准设置下，咱们采用标准为 4 及 2 的特性暗示，并联合 Transformer 布局进一步优化光流预计成果。终极将更新后的成果从头写入 Memory Bank。

咱们于 nuScenes、Waymo 等数据集长进行了验证。纵然模子没有于这些数据集长进行练习，成果显示依然具有了较强的零样本泛化能力，并取患了较好的机能。

下一步是三维场景流预计，总体采用两阶段框架。第一阶段使用两帧点云直接举行大略场景流预计，第二阶段使用天生式扩散模子举行邃密优化。

这里咱们将几何特性、流特性嵌入以和价钱体作为前提旌旗灯号，用在节制扩散模子输出成果的多样性，终极获得精辟后的场景流预计成果。

随后咱们将预计获得的场景流作为监视旌旗灯号，进一步监控及优化流预计历程，并将成果输入到四维混淆暗示（4D Hybrid Representation）中，使用 Neural Rendering 技能完成动态场景重修。

接下来进一步研究动态场景 SLAM。咱们同时对于远景及配景举行建图。对于在配景部门，采用传统三维高斯暗示要领，使用 Gaussian SLAM 完成配景建图。

对于在远景部门，咱们思量了两类对于象。第一类长短刚体方针，例如人类及动物。咱们设计了可变形高斯收集，于人体动力学约束下猜测人体的位置、姿态及朝向，这里采用 FMPTL 框架约束人体运动纪律。对于在刚体方针，则使用检测成果及光流信息预计持续运动状况。

于完成远景及配景重修以后，咱们进一步举行当前帧定位。

此外，因为配景部门采用了三维高斯暗示，是以可以举行衬着，得到二维不雅测中央，同时投影三维高斯中央后得到几何中央，这两类中央可以配合作为相机位姿预计约束。

因为持续帧之间存于运动瓜葛，是以可以计较光流向量，同时咱们将三维高斯中央投影到图象平面后，也会形成对于应向量。经由过程最小化这两类向量之间的偏差，即重投影偏差（Reprojection Error），对于相机位姿举行优化，从而得到更切确的定位成果。

接下来，就是构建完备舆图。因为体系中存于年夜量局部舆图，是以需要举行同一优化。咱们引入了两类约束：一类是几何约束，另外一类是一致性约束。经由过程结合优化，终极得到完备的三维高斯舆图。

这里展示的是 Gaussian SLAM 的成果。

体系不仅恢复了相机轨迹，同时还有恢复了人体运动轨迹。

不外一个问题是，高斯暗示占用较多存储空间，计较效率也较低。为相识决这一问题，咱们进一步设计了紧凑型三维高斯 SLAM。

起首采用体素化方式构造高斯暗示，然后设计滑动窗口机制，去除了三维高斯暗示中的冗余信息，同时引入 3D Gaussian ICP Loss，作为全局 Bundle Adjustment 的约束项，末了使用残差向量优化（Residual Vector Optimization）进一步压缩三维高斯存储。

试验成果注解，体系运行速率可以或许晋升约一倍，同时显著提高总体效率，实现靠近及时运行。

下一步咱们思量语义 SLAM。于导航使命中，语义信息一样很是主要，是以咱们将语义信息引入体系。

起首提取几何特性、外不雅特性以和语义特性，然后使用 Attention 机制举行特性交融，实现语义场景暗示。于语义 SLAM 中，咱们采用从粗到细（Coarse-to-Fine）的条理化框架。粗层级重要存眷总体布局及语义信息，细层级进一步引入颜色信息、界限信息等更细粒度特性，末了经由过程构建条理图并举行图优化，实现完备语义 SLAM 体系。

这里展示了 RGB-D 数据及语义信息交融后的成果。可以看到，差别语义种别之间具备很是清楚的界限。

另外一个具备挑战性的问题是：假如配景自己也是可变形的，那末特性跟踪及对于应瓜葛成立城市变患上很是坚苦。为相识决这一问题，咱们提出了可变形三维高斯舆图（Deformable 3D Gaussian Map）。

起首界说可变形体元（Deformable Primitives），咱们采用差别颜色暗示对于象的差别属性，例如刚体、半刚体或者彻底可变形物体。随后界说时变形变场（Temporal Deformation Field），使用基函数及权重暗示形变特性。

三维高斯被输入到形变场后，可以按照形变信息转变其外形及颜色。当输入二维 RGB-D 图象时，因为舆图是可变形的，此中部门区域变化很是猛烈，这些区域难以作为不变定位依据。是以，咱们基在所构建的舆图计较持续性舆图（Continuity Map），并使用其举行相机位姿优化，同时不停更新舆图中的相干参数。

完成要害帧定位以后，后续流程与传统 SLAM 近似，但分外思量了形变几率因素，从而终极完成总体建图。特别于手术呆板人场景中，这类体系可以或许有用应答高度可变形情况。

于构建舆图以后，另外一个要害问题是怎样使用舆图举行定位。

建图时，咱们可以得到包罗富厚三维信息的高精度舆图；但现实部署时，可能只有一个廉价摄像头，只能获取二维图象。是以问题酿成了二维到三维的跨模态定位（Cross-modal Localization）。

咱们起首提取图象及点云特性，然后成立二维到三维对于应瓜葛。详细来讲，先将三维点投影到图象平面，再成立与临近图象特性之间的联系关系。因为这些区域已经经与对于应特性成立联系关系，是以进一步联合邻域点特性举行特性聚合，终极得到不变的二维—三维联系关系瓜葛。以后使用鲁棒匹配机制去除了噪声，再经由过程位姿回归（Pose Regression）得到三维定位成果。

试验注解，该要领可以或许实现很是高的定位精度，同时具有及时机能，每一帧推理时间仅为 14 毫秒。

末了先容计划部门。

于人类举行导航时，凡是会使用影象记住要害帧或者要害所在。当碰到从未履历过的场景时，也会使用已经有经验举行推理，判定下一步应该怎样步履。

对于在影象模块，咱们使用 NeRF 存储要害帧信息，并成立检索机制。体系会重点存眷影象中的相干内容。假如当前场景与已往见过的场景相似，那末体系会更多依靠汗青经验举行决议计划，如许可以或许提高导航效率。假如某一区域已经经摸索过，而且方针位置曾经经呈现过，那末呆板人就可以更直接地向方针标的目的挪动。

同时，咱们也测验考试引入推理能力。例如使用年夜型视觉语言模子理解图象内容，成立语义瓜葛图谱。对于在每一一帧不雅测信息，都存储到影象模块中。

整个体系采用双层图布局。体系进修对于象之间的联系关系法则及瓜葛，并完成瓜葛绑定。

这里展示了体系的事情历程。有时辰两个方针于视觉上看似无关，但借助年夜语言模子，体系可以或许理解它们之间存于潜于接洽，是以会越发存眷相干方针。这类推理能力一样可以或许帮忙导航决议计划。

末了我先容几个贸易化运用案例。

起首，咱们为矿卡设计了导航体系，今朝已经经不变运行跨越一年，可以或许于繁杂矿区情况中自立导航。于仓储场景中，咱们开发了合用在动态变化情况的清洁呆板人。因为货物及装备连续变化，是以导航体系需要不停顺应情况变化。

于主动停车场景中，高精度舆图信息一样十分主要，以撑持车辆自立导航。此外，咱们还有联合挪动平台及挪动通讯平台开展相干运用，舆图信息及导航定位信息对于在通讯装备精准部署至关主要。

于割草呆板人（Lawn Mower Robot）场景中，呆板人凡是需要于很是年夜的开放区域事情。此时定位偏差轻易堆集，同时需要举行舆图匹配，体系需要判定界限位置，并辨认运动方针等需要重点存眷的区域。

以上就是咱们近期于 SLAM 范畴的一些研究事情。

瞻望将来，咱们将进一步存眷世界模子与情况建模，但愿可以或许猜测永劫间序列中将来将发生的环境。同时，感知、计划与决议计划之间是慎密耦合的。一个很小的感知偏差，终极可能致使很是年夜的决议计划偏差，是以需要结合思量这些问题。

此外，还有需要解决持久使命中的繁杂决议计划问题。决议计划历程应基在完备序列举行，而不单单是即时反映式决议计划。

更主要的是，所有体系终极都必需于真实世界中运行。真实世界是不成猜测的，是以咱们需要面临年夜量边沿案例及各类繁杂问题。

我的陈诉就到这里，谢谢各人。

Q A 问答环节

发问：您的陈诉中关在可变形 SLAM 的部门很是成心思。请问你们是否测验考试过于室外农业情况中运行这套体系？例如树叶会连续摆动变形，而传统 SLAM 算法于这种情况中的定位效果凡是较差。

王贺升：这是一个很是好的问题。今朝咱们还有没有测验考试过如许的场景。咱们当前重要面向手术呆板人开展研究，由于于手术历程中，人体构造自己就是高度可变形的情况。

你提到的树叶等农业场景实在也很是有趣，我认为与咱们当前研究的问题具备必然相似性，由于它们一样会连续发生形变。咱们今朝也有一些相干设法，但愿可以或许使用持续性舆图举行建图。不外详细于真实农业场景中运用时会碰到甚么问题，今朝我还有不确定，将来咱们会测验考试验证这一标的目的。

去哪看 ICRA 焦点【演讲/论文】详解？

为了让海内的研发者、创业者与投资人可以或许毫无时差地把握本届 ICRA 2026 的完备干货，雷峰网已经周全上线【ICRA 2026 深度专区】。

专区不仅周全收录了重磅论文的工程化解读、专家前沿演讲，更将连续更新前方记者的第一手集会动态。

扫描下方二维码，或者点击「浏览原文」存眷专区。

上海交大王贺升教授：从画地图到预测未来，传统 SLAM 正走出静态世界 | ICRA 2026

与全世界 8000 名顶尖年夜脑同步呼吸，争先透视具身智能的下一个五年！

雷峰网文章

雷峰网原创文章，未经授权禁止转载。详情见转载须知。

-BBIN·宝盈

产品

服务

关于BBIN·宝盈

信息公开

产品 +

服务 +

关于BBIN·宝盈 +

信息公开 +

投资者关系

加入BBIN·宝盈

客户留言