
已往,呆板人听到“帮我把毛巾放进洗手池”——它只会机械地履行一串预设动作。此刻,咱们让G0.5做到了:先想——毛巾于哪?洗手池于哪?应该先拿起毛巾,再挪动已往,末了放下。边思索,边步履。 这一能力依托在咱们最新的 VLA(视觉-语言-步履)模子架构设计:让统一个模子、统一套权重,同时完成推理与步履,让呆板人拥有“步履中的思索能力”。 G0.5 于 R1 Lite 呆板人上,零样本(未经任何该场景的微调),仅凭天然语言指令直接驱念头器人完成操作使命。模子从未见过当前的情况结构、物体种别及指令组合,却能及时理解指令用意、分化动作并输出流利的双臂节制。 这恰是 G0.5 “执法如山”的开箱即用能力——一个模子,一句话,直接干活。 已往,呆板人进修一项新使命凡是象征着:从头收罗数据、从头微调模子、从头适配场景。它们可以精彩地完成被练习过的使命,却很难泛化到新的物体、新的情况及新的指令。 咱们经由过程年夜范围、多使命预练习,让 G0.5 形成为了可迁徙、可组合的操作智能。抓取、放置、推拉、开合、挪动等原子动作,再也不是单个使命中的固定片断,而是沉淀为模子可以复用的能力单位。 于面临新的场景、空间结构及从未见过的物体时,仅凭天然语言指令,G0.5 就能直接履行操作,呆板人最先 “边思索边步履”(Think While Acting)。 1. 同一异构动作编解码器:让一种“动作语言”笼罩所有呆板人 差别呆板人的形态、自由度、节制频率千差万别——双臂人形、挪动底盘、单臂工业呆板人,每一一种都有各自的动作维度。已往的做法,要末每一种呆板人零丁弄一套(如 FAST 用固定的 DCT 流水线为每一种 embodiment 各自离散化),要末把所有自由度拍平成一个长向量再做量化。前者没法跨本体同享常识,后者会让 token 数目随总自由度线性膨胀——哪怕当前这一步只是手指动一下,模子也患上为所有枢纽关头天生 token,华侈严峻,并且语义高度纠缠、迁徙性差。 咱们认为,动作 token 本应像语言同样既布局化又稀少。为此咱们设计了一套同一的异构动作编解码器。患上益在这套设计,G0.5 用一套动作词表就能涵盖从桌面双臂到全身挪动操作的各种本体,自回归解码带来的分外开消也被节制于可接管规模内——这恰是咱们能把 VLM 从头放回“动作天生者”位置、而不是退化为前提编码器的要害条件。 G0.5 Action tokenizer 2. 原活泼作思维链:让呆板人不仅“边思索边步履”,还有听患上懂“怎么做” 同一动作词表让咱们可以把 VLM 从头放回“动作天生者”的位置。这件事真实的回报,是 VLM 于预练习中习患上的天生式能力——链式思维、上下文进修、prompt 调制——可以原生作用在动作天生,而没必要先穿过 VLM-as-Encoder 架构里阿谁“前提编码”的压缩瓶颈。 大都现有事情中,链式思维(CoT)只是练习时的辅助使命,推理模块及动作模块被割裂于两套参数、两个方针里——推理成果想影响动作,必需先被压成一段隐状况再喂给下流 expert,中间既有语义丧失,延迟也不成控。咱们认为应回归本源,将 CoT 与动作天生交融于统一个自回归流中:模子会先输出子使命分化、方针物体框、2D 轨迹提醒等推理成果,再输出动作 token。 这套设计带来两个可别离验证的收益: ▪长程使命的零样天职解能力:于 BEHAVIOR-1K 这种需要将天然语言指令拆解成数十个子步调的家居使命上,单个 G0.5 checkpoint 仅练习一个 epoch 即跨越练习四个 epoch 的 π0.5 ,也跨越由四个 checkpoint 构成的 Challenge 冠军方案。于预练习漫衍外的家居使命上,模子一样能零样本完成子使命分化。 ▪语言对于举动的及时塑造:由于 prompt 直接进入及动作 token 统一条 AR 流,天然语言可以于推理时持续调制动作漫衍,无需从头练习。作为一个代表性的定性示例,于“打开烤面包机开关”使命上,因为开关行程较长,仅给“打开开关”指令时模子的按压力度不敷;一旦于指令中追加“push harder”,模子会较着加年夜下压力度并终极触发开关。 3. 时空留意力模块:为呆板人注入上下文感知先验 真正的繁杂家居使命不克不及仅依靠单帧画面的“本能反映”。当视野被机械臂短暂遮挡,或者使命不测掉败时,呆板人必需依靠汗青上下文才能维持不变的空间感知。咱们为 G0.5 配备了轻量级时空留意力模块,交融数秒的汗青视觉信息,使模子于局部视线丢掉时依然能稳健履行。 试验注解,患上益在预练习阶段习患上的感知先验,G0.5 于 BEHAVIOR-1K 中“挪动箱子到储物间”“装车”“搬木柴”“收拾卧室”等长程使命上不变优在 π0.5。 G0.5 于 7 个自力评测场景中周全领先,焦点数据以下: 真实世界微调评测:于 R1 Pro / R1 Lite 的六个使命-本体设置上,G0.5(深橙)于乐成率与历程分上总体年夜幅领先 π0.5 与 GR00T-N1.7。 DROID 零样本评测:无任何该呆板人微调,G0.5 于 10 个桌面操作使命上平均乐成率 82.5%,逐使命均优在 π0.5-DROID 与 MolmoAct2-DROID。 从这些成果中,咱们可以瞥见: ▪年夜范围预练习使 G0.5 得到了具身基础模子的要害能力。于此基础上,仅需轻量后练习便可于 7个基准上逾越 π0.5 并取患了SOTA的效果, 验证了该预练习范式的有用性。 ▪零样本开箱即用:DROID(Franka)及 PP Bench(R1 Lite)两项零样本泛化试验注解,G0.5 的预练习智能可以直接迁徙到任何同型号呆板人平台及一个全新的情况。 ▪单模子泛化与机能上风:于 BEHAVIOR-1K 挑战赛的 50 个长程挪动操作家居使命评测中,仅笔据一模子权重,G0.5 只需后练习1个 epoch(0.29)便显著逾越了多模子集成的冠军方案与 π0.5,并于4个 epoch 下进一步晋升至 0.31,揭示出更高的机能上限,跨越对折使命体现更优。 ▪预练习表征降服长程使命瓶颈:这直接验证了基在布局化动作空间与视觉影象的预练习先验,才是模子超过长程挪动操作鸿沟、实现高效泛化的焦点地点。 G0.5是星海图具身基础模子的主要进级: ▪再也不把 VLM 当编码器,而是让它从头成为步履者; ▪再也不割裂推理与动作,而是让模子边思索边步履; ▪再也不只履行预设步伐,而是让模子听患上懂“怎么做”、记患上住“发生了甚么”。 咱们信赖,通器具身智能需要一条可扩大的模子及数据路径。接下来,咱们将于更多呆板人数据、更繁杂的情况、更长的使命时序中继承推进。 后续模子开源后,G0.5 也将撑持于多种本体上的“开箱即用”部署,助力开发者开展落地实践。 技能陈诉已经完备公然: https://opengalaxea.github.io/G05/ https://opengalaxea.github.io/G05/Galaxea_G0_5.pdf



G0.5 于 R1 Lite 上零样本履行“把毛巾放进洗手池”:于统一自回归流中,模子师长教师成思索(子使命、方针物体框),再输出动作 token,并从每一一帧不雅测闭环重计划。







Pick-and-Place 基准:从零样本到 50 小时后练习,G0.5(深色)于“语言追随率”与“使命乐成率”两项指标上,各数据范围均优在 π0.5