
雷峰网(公家号:雷峰网)讯2026 年 6 月 1 日,国际呆板人与主动化集会(ICRA)于奥地利维也纳召开。越日上午的主动驾驶与导航陈诉环节,雷峰网GAIR 2021年夜会佳宾、上海交通年夜学传授王贺升发表了题为《Learning to Navigate: From Scene Understanding to Decision Makin》的演讲。 找到本身的位置,并理解周围情况,一直是呆板人可以或许落地的先决前提。此前的导航体系年夜多成立于”情况静止、布局不变”的假定之上,但跟着具身智能从试验室走向真实场景,实际世界的动态变化让传统 SLAM(同步定位与建图)逐渐逼近天花板,无力应答主动驾驶中的车辆行人,或者是手术呆板人眼前多变的人体构造。运动、遮挡甚至形变问题,是新一代 SLAM 需要解决的全新问题。 缭绕这一挑战,王贺升传授体系先容了从感知、建图、定位到计划的完备技能线路。于感知层面,研究团队提出联合激光雷达与视觉传感器举行多模态交融,并经由过程光流、场景流及四维重修技能理解动态情况的方案,于建图层面,则提出经由过程动态 Gaussian SLAM 及可变形三维高斯舆图,实现对于运动方针及可变形情况的连续建模。王贺升传授尤其提到,“人体这类很是可变形的情况”是当前研究重要的对于象,以期解决手术呆板人场景中的定位与建图难题。 此外,针对于具身智能遍及缺少持久影象及情况理解能力的问题,团队还有测验考试引入 NeRF 影象机制以和视觉语言模子推理能力,让呆板人不仅知道“本身于哪里”,还有能使用汗青经验及语义瓜葛辅助导航决议计划。 据王贺升传授先容,相干技能已经于矿卡、仓储呆板人、主动停车、挪动通讯平台及割草呆板人等场景中落地运用。可以看到,面临真实世界中的动态变化、繁杂语义及情况形变等挑战,呆板人导航正从传统 SLAM 走向交融世界模子、年夜模子推理与可变形情况感知的具身智能基础举措措施。 如下是王贺升于 ICRA 2026 年夜会发表的演讲精编稿,AI 科技评论基在原英文演讲内容举行了不改原意的翻译编纂: 《Learning to Navigate: From Scene Understanding to Decision Makin》 主讲人:王贺升(Hesheng Wang),上海交通年夜学 01 进修导航:从场景理解到决议计划制订 各人早上好。很侥幸向各人先容咱们近来的一些研究事情。我的研究标的目的重要是呆板人导航与操作,今天的陈诉将重点聚焦在导航部门。 正如各人所相识的那样,最近几年来挪动呆板人平台的种类愈来愈富厚,呆板人导航技能已经经广泛运用在物流呆板人、主动驾驶、家庭呆板人,甚至手术呆板人等场景。 今天我将先容呆板人导航中的一些焦点技能。起首是里程计部门,呆板人使用传感器预计自身位姿,随后思量动态情况中的运动方针,同时思量语义信息以和情况可变形的环境。于构建体系以后,咱们会得到全局舆图,然后基在全局舆图举行定位,末了完成路径计划。下面我将依次先容这些内容。 起首先容里程计部门。 咱们同时思量了激光雷达传感器及视觉传感器两类数据。起首是将激光雷达点云投影到尺度俯瞰图平面。因为咱们已经知激光雷达坐标系与相机坐标系之间的外参,是以可以将三维激光雷达点投影到图象平面上。得到这些三维投影点的中央点,并对于图象中的特性举行聚类,提取两类差别特性以后,接着咱们采用一种称为 Local-to-Global 的特性交融收集,对于这两类特性举行交融,终极获得全局特性暗示。 于此基础上,就能够经由过程位姿解码器得到初始位姿预计。以后进一步举行优化,咱们采用近似在 RANSAC 的思绪,经由过程迭代方式慢慢精辟成果,终极得到切确的位姿预计。 接下来思量动态场景。咱们的研究事情从二维扩大到三维,再进一步扩大到四维暗示。 于二维场景中,咱们起首研究光流预计,由于它是运动预计中的要害算法之一,随后扩大到三维场景流预计,进一步研究四维重修,终极实现四维建图与 SLAM。 对于在二维光流预计,咱们起首利用 Memory Bank 存储汗青光流信息,然后使用持续性约束猜测下一时刻的光流。联合当前图象,经由过程基在 DRU 的收集举行优化。于多标准设置下,咱们采用标准为 4 及 2 的特性暗示,并联合 Transformer 布局进一步优化光流预计成果。终极将更新后的成果从头写入 Memory Bank。 咱们于 nuScenes、Waymo 等数据集长进行了验证。纵然模子没有于这些数据集长进行练习,成果显示依然具有了较强的零样本泛化能力,并取患了较好的机能。 下一步是三维场景流预计,总体采用两阶段框架。第一阶段使用两帧点云直接举行大略场景流预计,第二阶段使用天生式扩散模子举行邃密优化。 这里咱们将几何特性、流特性嵌入以和价钱体作为前提旌旗灯号,用在节制扩散模子输出成果的多样性,终极获得精辟后的场景流预计成果。 随后咱们将预计获得的场景流作为监视旌旗灯号,进一步监控及优化流预计历程,并将成果输入到四维混淆暗示(4D Hybrid Representation)中,使用 Neural Rendering 技能完成动态场景重修。 接下来进一步研究动态场景 SLAM。咱们同时对于远景及配景举行建图。对于在配景部门,采用传统三维高斯暗示要领,使用 Gaussian SLAM 完成配景建图。 对于在远景部门,咱们思量了两类对于象。第一类长短刚体方针,例如人类及动物。咱们设计了可变形高斯收集,于人体动力学约束下猜测人体的位置、姿态及朝向,这里采用 FMPTL 框架约束人体运动纪律。对于在刚体方针,则使用检测成果及光流信息预计持续运动状况。 于完成远景及配景重修以后,咱们进一步举行当前帧定位。 此外,因为配景部门采用了三维高斯暗示,是以可以举行衬着,得到二维不雅测中央,同时投影三维高斯中央后得到几何中央,这两类中央可以配合作为相机位姿预计约束。 因为持续帧之间存于运动瓜葛,是以可以计较光流向量,同时咱们将三维高斯中央投影到图象平面后,也会形成对于应向量。经由过程最小化这两类向量之间的偏差,即重投影偏差(Reprojection Error),对于相机位姿举行优化,从而得到更切确的定位成果。 接下来,就是构建完备舆图。因为体系中存于年夜量局部舆图,是以需要举行同一优化。咱们引入了两类约束:一类是几何约束,另外一类是一致性约束。经由过程结合优化,终极得到完备的三维高斯舆图。 这里展示的是 Gaussian SLAM 的成果。 体系不仅恢复了相机轨迹,同时还有恢复了人体运动轨迹。 不外一个问题是,高斯暗示占用较多存储空间,计较效率也较低。为相识决这一问题,咱们进一步设计了紧凑型三维高斯 SLAM。 起首采用体素化方式构造高斯暗示,然后设计滑动窗口机制,去除了三维高斯暗示中的冗余信息,同时引入 3D Gaussian ICP Loss,作为全局 Bundle Adjustment 的约束项,末了使用残差向量优化(Residual Vector Optimization)进一步压缩三维高斯存储。 试验成果注解,体系运行速率可以或许晋升约一倍,同时显著提高总体效率,实现靠近及时运行。 下一步咱们思量语义 SLAM。于导航使命中,语义信息一样很是主要,是以咱们将语义信息引入体系。 起首提取几何特性、外不雅特性以和语义特性,然后使用 Attention 机制举行特性交融,实现语义场景暗示。于语义 SLAM 中,咱们采用从粗到细(Coarse-to-Fine)的条理化框架。粗层级重要存眷总体布局及语义信息,细层级进一步引入颜色信息、界限信息等更细粒度特性,末了经由过程构建条理图并举行图优化,实现完备语义 SLAM 体系。 这里展示了 RGB-D 数据及语义信息交融后的成果。可以看到,差别语义种别之间具备很是清楚的界限。 另外一个具备挑战性的问题是:假如配景自己也是可变形的,那末特性跟踪及对于应瓜葛成立城市变患上很是坚苦。为相识决这一问题,咱们提出了可变形三维高斯舆图(Deformable 3D Gaussian Map)。 起首界说可变形体元(Deformable Primitives),咱们采用差别颜色暗示对于象的差别属性,例如刚体、半刚体或者彻底可变形物体。随后界说时变形变场(Temporal Deformation Field),使用基函数及权重暗示形变特性。 三维高斯被输入到形变场后,可以按照形变信息转变其外形及颜色。当输入二维 RGB-D 图象时,因为舆图是可变形的,此中部门区域变化很是猛烈,这些区域难以作为不变定位依据。是以,咱们基在所构建的舆图计较持续性舆图(Continuity Map),并使用其举行相机位姿优化,同时不停更新舆图中的相干参数。 完成要害帧定位以后,后续流程与传统 SLAM 近似,但分外思量了形变几率因素,从而终极完成总体建图。特别于手术呆板人场景中,这类体系可以或许有用应答高度可变形情况。 于构建舆图以后,另外一个要害问题是怎样使用舆图举行定位。 建图时,咱们可以得到包罗富厚三维信息的高精度舆图;但现实部署时,可能只有一个廉价摄像头,只能获取二维图象。是以问题酿成了二维到三维的跨模态定位(Cross-modal Localization)。 咱们起首提取图象及点云特性,然后成立二维到三维对于应瓜葛。详细来讲,先将三维点投影到图象平面,再成立与临近图象特性之间的联系关系。因为这些区域已经经与对于应特性成立联系关系,是以进一步联合邻域点特性举行特性聚合,终极得到不变的二维—三维联系关系瓜葛。以后使用鲁棒匹配机制去除了噪声,再经由过程位姿回归(Pose Regression)得到三维定位成果。 试验注解,该要领可以或许实现很是高的定位精度,同时具有及时机能,每一帧推理时间仅为 14 毫秒。 末了先容计划部门。 于人类举行导航时,凡是会使用影象记住要害帧或者要害所在。当碰到从未履历过的场景时,也会使用已经有经验举行推理,判定下一步应该怎样步履。 对于在影象模块,咱们使用 NeRF 存储要害帧信息,并成立检索机制。体系会重点存眷影象中的相干内容。假如当前场景与已往见过的场景相似,那末体系会更多依靠汗青经验举行决议计划,如许可以或许提高导航效率。假如某一区域已经经摸索过,而且方针位置曾经经呈现过,那末呆板人就可以更直接地向方针标的目的挪动。 同时,咱们也测验考试引入推理能力。例如使用年夜型视觉语言模子理解图象内容,成立语义瓜葛图谱。对于在每一一帧不雅测信息,都存储到影象模块中。 整个体系采用双层图布局。体系进修对于象之间的联系关系法则及瓜葛,并完成瓜葛绑定。 这里展示了体系的事情历程。有时辰两个方针于视觉上看似无关,但借助年夜语言模子,体系可以或许理解它们之间存于潜于接洽,是以会越发存眷相干方针。这类推理能力一样可以或许帮忙导航决议计划。 末了我先容几个贸易化运用案例。 起首,咱们为矿卡设计了导航体系,今朝已经经不变运行跨越一年,可以或许于繁杂矿区情况中自立导航。于仓储场景中,咱们开发了合用在动态变化情况的清洁呆板人。因为货物及装备连续变化,是以导航体系需要不停顺应情况变化。 于主动停车场景中,高精度舆图信息一样十分主要,以撑持车辆自立导航。此外,咱们还有联合挪动平台及挪动通讯平台开展相干运用,舆图信息及导航定位信息对于在通讯装备精准部署至关主要。 于割草呆板人(Lawn Mower Robot)场景中,呆板人凡是需要于很是年夜的开放区域事情。此时定位偏差轻易堆集,同时需要举行舆图匹配,体系需要判定界限位置,并辨认运动方针等需要重点存眷的区域。 以上就是咱们近期于 SLAM 范畴的一些研究事情。 瞻望将来,咱们将进一步存眷世界模子与情况建模,但愿可以或许猜测永劫间序列中将来将发生的环境。同时,感知、计划与决议计划之间是慎密耦合的。一个很小的感知偏差,终极可能致使很是年夜的决议计划偏差,是以需要结合思量这些问题。 此外,还有需要解决持久使命中的繁杂决议计划问题。决议计划历程应基在完备序列举行,而不单单是即时反映式决议计划。 更主要的是,所有体系终极都必需于真实世界中运行。真实世界是不成猜测的,是以咱们需要面临年夜量边沿案例及各类繁杂问题。 我的陈诉就到这里,谢谢各人。 02 发问:您的陈诉中关在可变形 SLAM 的部门很是成心思。请问你们是否测验考试过于室外农业情况中运行这套体系?例如树叶会连续摆动变形,而传统 SLAM 算法于这种情况中的定位效果凡是较差。 王贺升:这是一个很是好的问题。今朝咱们还有没有测验考试过如许的场景。咱们当前重要面向手术呆板人开展研究,由于于手术历程中,人体构造自己就是高度可变形的情况。 你提到的树叶等农业场景实在也很是有趣,我认为与咱们当前研究的问题具备必然相似性,由于它们一样会连续发生形变。咱们今朝也有一些相干设法,但愿可以或许使用持续性舆图举行建图。不外详细于真实农业场景中运用时会碰到甚么问题,今朝我还有不确定,将来咱们会测验考试验证这一标的目的。 03 为了让海内的研发者、创业者与投资人可以或许毫无时差地把握本届 ICRA 2026 的完备干货,雷峰网已经周全上线【ICRA 2026 深度专区】。 专区不仅周全收录了重磅论文的工程化解读、专家前沿演讲,更将连续更新前方记者的第一手集会动态。 扫描下方二维码,或者点击「浏览原文」存眷专区。 与全世界 8000 名顶尖年夜脑同步呼吸,争先透视具身智能的下一个五年! 雷峰网原创文章,未经授权禁止转载。详情见转载须知。

















