BBIN·宝盈-打通视频生成与机器人世界模型，BridgeV2W 让机器人学会"预演未来"

2026-03-15 18:46:43

　　导语：BridgeV2W，让呆板人借助视频天生模子“预演”自身步履的后果——这条路，不仅走患上通，并且可以走患上很远。

呆板人怎样脑补将来？

想象一下，你眼前摆着一杯咖啡，你伸手去拿，于你的手真正触遇到杯子以前，你的年夜脑已经经于脑补了整个历程：手臂将怎样挪动、杯子会是甚么触感、抬起后桌面的样子……这类对于将来场景的想象及猜测能力，恰是人类操控世界的焦点认知基石。

那末，可否付与呆板人一样的“预演能力”，先于“脑海”中模仿动作后果，再付诸履行？这就是具出身界模子要做的工作：让呆板人于步履前，就能“瞥见”将来。最近几年来，借助年夜范围视频天生模子（如Sora、Wan等）强盛的视觉先验，这一标的目的取患了使人瞩目的进展。

然而，一个难堪的问题始终悬而未决：视频天生模子的世界由像素编织而成，而呆板人的语言倒是枢纽关头角度与位姿坐标，它们利用彻底差别的“表征语言”描写统一个物理世界。

为相识决上述问题，具身智能公司中科第五纪结合中科院主动化所团队推出 BridgeV2W，它经由过程一个极其优雅的设计，具身掩码（Embodiment Mask），一种由呆板人动作衬着出的“动作剪影”，将坐标空间的动作无缝映照到像素空间，从而真正买通预练习视频天生模子与世界模子之间的桥梁，让呆板人学会靠得住地“预演将来”。

困境：三座年夜山盖住了呆板人的预演能力

只管远景广漠，当前的具出身界模子仍面对三年夜焦点挑战：

1.动作与画面“语言欠亨”。呆板人动作是枢纽关头角、结尾位姿等坐标数值，而视频天生模子只“看”像素。直接拼接动作向量效果有限，往往缺少空间对于齐的“硬毗连”，模子难以理解。

2.视角一变，世界就“崩”。统一动作于差别视角下外不雅悬殊。现有要领于练习视角上尚可，一旦换视角，猜测质量骤降，而真实场景中，相机位置险些不成能复现练习设置。

3.换一个呆板人就患上“从零最先”。单臂、双臂、挪动底盘……布局千差万别。现有要领往往需为每一种呆板人定制架构，难以构建同一的世界模子。

焦点立异：仅凭动作剪影，一举破解三浩劫题

BridgeV2W 的焦点洞察极为直觉：既然鸿沟源在“坐标 vs 像素”，那就把动作直接“画”进画面里！

它提出具身掩码：使用呆板人的 URDF 模子及相机参数，将动作序列及时衬着为每一帧图象上的二值“动作剪影”，精准标出呆板人于画面中的位置与姿态。

这一设计，一举破解前述三浩劫题：

动作-像素对于齐：掩码是自然的像素级旌旗灯号，与视频模子输入空间彻底匹配，无需模子“猜”坐标的寄义。

视角自顺应：掩码随当前相机视角动态天生，动作与画面始终对于齐，模子是以自然泛化到肆意新视角。

跨具身通用：只要提供 URDF，单臂、双臂呆板人都能用统一套框架天生对于应掩码，无需修改模子布局。

技能上，BridgeV2W 采用 ControlNet 式的旁路注入，将掩码作为前提旌旗灯号融入预练习视频天生模子，于保留其强盛视觉先验的同时，付与其理解呆板人动作的能力。此外，为避免模子“偷懒”（只复现静态配景），还有引入光流驱动的运动丧失，指导其聚焦在使命相干的动态区域。

试验成果：多场景、多呆板人、多视角的周全验证

研究团队于多个设置下体系验证了BridgeV2W的能力，涵盖差别呆板人平台、差别操作场景、未见视角及下流使命运用。

DROID数据集：年夜范围单臂操作

DROID是今朝最年夜范围的真实世界呆板人操作数据集之一，数据收罗超过多个试验室及情况。BridgeV2W于该数据集上的体现尤为亮眼，于 PSNR、SSIM、LPIPS 等焦点指标上逾越 SOTA 要领。

特别于“未见视角”测试中，对于比喻法常呈现画面崩塌、肢体错位，而 BridgeV2W 依然天生物理合理、视觉联贯的将来视频，充实验证了其视角鲁棒性。于“未见场景”（全新桌面结构、配景）下，泛化能力一样精彩。

AgiBot-G1数据集：双臂人形呆板人

AgiBot-G1 是一个彻底差别的双臂平台，自由度与运动模式与 DROID 大相径庭。

要害成果：无需修改模子架构，仅替代 URDF 并从头衬着掩码，BridgeV2W 就能无缝适配，并取患上媲美单臂的猜测质量，这是迈向通器具出身界模子的主要一步。

下流使命运用：从想象到步履

BridgeV2W不单单是一个能天生都雅视频的模子，研究团队进一步于真实世界的下流使命中验证了实在用价值：

计谋评估：于世界模子中“试跑”差别计谋，无需真实呆板人重复试错。试验显示，BridgeV2W 的评估成果与真实乐成率高度相干，年夜幅降低计谋迭代成本。

方针图象操作计划：给定一张方针图象（如“把杯子放到盘子上”），BridgeV2W 能于“想象空间”中搜刮出可步履作序列，实现从视觉方针到物理动作的闭环计划。

要害亮点：海量无标注人类视频，全都能用！

你可能会问：具身掩码不是需要 URDF 及相机参数吗？没有这些几何信息的数据怎么办？

BridgeV2W 的巧妙的地方于在：

•推理时需轻量几何信息（URDF + 相机参数）衬着“计较掩码”，用在精准节制；

•练习时却无需任何标定：只需支解模子（如 SAM）提取的“支解掩码”，便可提供有用监视。

团队将 AgiBot-G1 呆板人数据与无标定的 Ego4D FHO（第一人称手部操作视频）混淆练习，仅用 SAM 提取的手部掩码，就实现了惊人效果：

•仅用支解掩码练习，模子仍能学到合理的运动纪律；

•插手年夜量 Ego4D 视频 + 极少量呆板人标定命据，机能险些媲美全量标定练习。

这申明：人类视频蕴含富厚的动作先验，只需极少量呆板人数据，就能完成“具身对于齐”。

一句话总结：练习靠“野生”视频扩范围，部署靠轻量几何保精度：BridgeV2W 兼患上可扩大性与正确性。

BridgeV2W展现了一条极具远景的技能线路：

视频天生模子 + 具身掩码 = 可扩大的呆板人间界模子

这条线路有三个要害上风值患上寻思：

一、数据飞轮真正启动：互联网视频范围远超呆板人数据数个数目级。BridgeV2W 无需几何先验便可使用人类视频，为构建“呆板人数据飞轮”迈出要害一步。

二、技能盈余主动继续：视频天生范畴正高速迭代（Sora、Wan、CogVideoX……）。BridgeV2W 的架构使其能天然受益在底座模子进级，底座越强，“预演”越真。

三、通用智能的坚实基石：从单臂到双臂，从已经知场景到未知视角，BridgeV2W 揭示出的跨平台、跨场景、跨视角泛化能力，是迈向通器具身智能的主要里程碑。

总结与瞻望

BridgeV2W 经由过程“具身掩码”这一简便而优雅的中间表征，乐成架起了从年夜范围视频天生模子到实器具出身界模子的桥梁。它不仅解决了动作-像素对于齐、视角鲁棒性、跨具身通用性三年夜焦点挑战，更要害的是：练习无需 URDF 或者相机标定，可直接使用海量无标注人类视频，为世界模子的范围化练习斥地了全新路径。

今朝揭示的能力，也许只是冰山一角。

试想将来：当视频天生底座从十亿参数迈向千亿，当练习数据从数千小机会器人视频扩大到百万小时人类操作视频，当具身掩码从机械臂延长至全身人形、以致多机协作，呆板人的“预演能力”将迎来如何的奔腾？

正如 DreamZero 等事情预示的“呆板人 GPT 时刻”，BridgeV2W 从另外一个维度证实：

让呆板人借助视频天生模子“预演”自身步履的后果——这条路，不仅走患上通，并且可以走患上很远。

论文标题：BridgeV2W: Bridging Video Generation Models to Embodied World Models via Embodiment Masks

论文链接：https://arxiv.org/pdf/2602.03793

项目链接：https://bridgev2w.github.io/

雷峰网版权文章，未经授权禁止转载。详情见转载须知。

-BBIN·宝盈

产品

服务

关于BBIN·宝盈

信息公开

产品 +

服务 +

关于BBIN·宝盈 +

信息公开 +

投资者关系

加入BBIN·宝盈

客户留言