
雷峰网文章 开源一周多,GitHub破1,500 Star,冲上HuggingFace趋向榜——商汤SenseNova U1于开发者社区激发的热度,及这个模子自己的技能野心同样不平常。它做的工作,是把多模态理解及天生这两件事,真正塞进统一个年夜脑。 开发者于会商甚么?除了了效果有多冷艳,还有有一个更底层的问题:为何此次把VAE也去失了?从Stable Diffusion到FLUX,险些所有主流扩散模子都依靠变分自编码器(VAE)把图象压进潜空间,这是最近几年来整个图象天生技能栈的地基。SenseNova U1的NEO-unify架构选择把它整个拆失,直接于像素层面端到端建模语言与视觉。这不是工程优化,是架构层面的从头选边站。 HuggingFace社区的热点会商包括「可否于单张RTX 5090上运行」、「是否会有更轻量版本」等极具落地指向的问题,申明已经经有年夜量开发者于当真跑通它。有开发者评价称,这是「终究有人于原生同一标的目的上当真做了工程落地」,及此前的伪同一架构彻底不成同日而语。 与此同时,模子以Apache 2.0和谈彻底开源,撑持商用,发布后不到两周,团队已经陆续推出8步推理加快版、LoRA微调版、GGUF量化版和低显存layer-offload推理模式,迭代节拍之快,也是社区热度连续的缘故原由之一。 01 多模态的理解与天生,持久以来都是“两条腿走路”。于多模态理解方面,以GPT-4V、LLaVA、Qwen-VL为代表的视觉语言模子(VLM)可以或许履行繁杂的图象描写、视觉问答及推理使命,而图象天生技能,则有Stable Diffusion、FLUX、DALL-E 3为代表的扩散模子。两条技能线路虽然各有冲破,但持久以来因自力演进,形成为了大相径庭的架构范式,是不争的事实。 厘革最初发生于2025年,GPT-4o的同一多模态能力引爆了业界对于同一架构的寻求,也就是用一款模子既能理解图象内容,又能天生高质量图象。不外业界遍及推测,GPT-4o的图象理解能力仍旧是依靠视觉编码器提取图象特性实现,这款模子自己也其实不原生天生高质量图象,而是依靠集成的DALL-E 3。 实现路径之以是主要,是由于它瓜葛到模子的多模态能力是否真正实现了同一。以GPT-4o为代表的混淆架构虽然于物理上同享部门参数,可是理解与天生于特性暗示及计较路径上仍相对于自力。这类差别模块接力完成使命的路径,不成防止地致使了模子冗余、能力割裂及交互障碍。 02 真正靠统一个年夜脑做到这件事,曾经经是许多人的假想,今天被商汤实现了。SenseNova U1系列模子基在商汤在本年3月自立研发的NEO-unify架构,率先于单一模子架构上同一多模态理解、推理与天生,实现了从「模态集成」向「原生同一」的范式超过。 NEO-unify架构的焦点冲破于在,它完全摒弃了视觉编码器(VE)及变分自编码器(VAE),直接从像素及文本举行端到端进修。商汤于官方文章里打了个比喻,传统架构像“说差别语言的人构成的事情组”,而SenseNova U1更像「一个从一最先就同时把握多项技术的人」。 这一设计的技能意义于在:VAE的压缩历程素质上是有损的,开发者为此花了数年时间调参及打补钉;而NEO-unify直接于像素层面建模语言与视觉信息,像素与词语的信息从一最先就于统一个表征空间里配合介入每一一层计较,消弭了跨模块通报带来的信息损耗。 图注:该框架联合了(1)近无损视觉接口,(2)由两层卷积编码与类MLP 编码层实现,以和(3)原生的混淆Transformer(MoT)骨干架构。架构重点于在同时解决三组⽭盾:语义抽象与像素细节的配合表征、理解与⽣成的协同、语⾔因果性与图象空间⼀致性。 到此为止,咱们才能说端到端同一框架真正获得了实现。下到一次图象天生的效果,上到整个多模态模子的智能上限,都及这一里程碑的实现与否风雨同舟。 本次开源的SenseNova U1 Lite,包罗两个差别规格的模子: ▪基在浓厚主干收集的SenseNova-U1-8B-MoT:理解与天生两条分支参数约9.37B / 8.19B ▪基在混淆专家(MoE)主干收集的SenseNova-U1-A3B-MoT:理解分支约30.54B,天生分支约8.2B,每一token激活top-8专家,现实活跃参数约3B 03 于商汤最新发布的U1技能陈诉中,有一些数据非分特别亮眼。于涵盖图象理解、图象天生与编纂、空间智能及视觉推理的多项基准测试中,8B-MoT均到达同量级开源模子SOTA程度,甚至于部门指标上逾越了部门年夜型贸易闭源模子。 图注:SenseNova-U1与其他顶级多模态理解模子于多模态基准测试(Benchmarks)上的对于比。 图注:SenseNova-U1与仅具有理解能力的顶级模子于纯文本基准测试(Benchmarks)上的对于比 图注:GenEval 上的定量评估成果 从上表可以看出,SenseNova U1实现了理解、天生、编纂、交错及智能体能力的一体交融,形成为了相对于平衡的能力谱系。要害数据上,GenEval总分约0.91-0.92,OneIG中文文字衬着达0.977,信息图天生领先大都开放模子,多模态理解MMMU达80.55——这些数字发生于统一个模子内部,而不是多个专用模子的拼接。 技能陈诉中一个值患上零丁拿出来讲的结论是:同一架构具有更高数据效率。NEO-unify比拟近似同一模子BAGEL,于更少练习token下取患了更好体现。缘故原由于在原生像素-文本接口削减了跨模块对于齐成本,MoT又让两类能力同享上下文、互相提供监视旌旗灯号,练习数据使用率是以更高。 于天生延迟与平均机能的综合对于比中,SenseNova U1 Lite于包管图象天生质量比肩Qwen-Image 2.0 Pro、Seedream 4.5等年夜型闭源模子的同时,推理相应速率也揭示出显著上风,特别于繁杂信息图(Infographic)天生使命中,节制力凌驾预期。 更值患上留意的是,作为最强开源生图模子的SenseNova U1 Lite,仅仅只有8B的体量。光是这个数字自己,就象征下落地上的巨年夜潜力。 04 回到出产场景,SenseNova U1对于长文档及数据图表举行总结阐发、天生高质量信息图表的能力,有着广漠的运用空间。咱们也针对于性地设计了一个使命,看看SenseNova U1于现实事情流中的体现。 先让U1画一幅云南的水彩风光画,用持续图文创作输出的方式,展示从线稿到上色脱稿的慢慢历程。SenseNova U1可以或许很好的理解要求,举行切合逻辑的联贯输出,并连结画面信息的一致性。 一样是于出产场景,图文交错天生、带图思索暗地里的一致性也让 SenseNova U1 带来了更多可能性。于下面这个用例中,咱们请它为一座修建群设计了7步分镜,笼罩了从二维底图到带有好莱坞级CG效果的人视街景。 信息图天生方面,咱们先让SenseNova U1按照公然信息,做了一份5月院线影戏不雅影指南。 不雅影指南是一个要害信息高度密集的场景,每一部影戏的片名、日期、主题等标签都需要包管可读,于文字衬着正确性的难关之上,这又对于SenseNova U1处置惩罚多对于象布局化排版的能力提出了磨练。 此时文字的清楚出现已经经成了最基本要求,更进一步的体现,是于高信息密度的约束下,仍旧连结杂志级的排版审美。平面设计师的排版能力,与产物司理的信息架构能力,这两者的交织点,偏偏是最轻易袒露AI能力的短板。 为了进一步测试SenseNova U1的布局化叙事及设计能力,咱们又让它做了一份先容《甄嬛传》中“滴血验亲”这场戏的信息图,而且把要害台词融入设计中。 两份信息图都没有拿模板套作的陈迹,每一一页都做到了按照内容密度自顺应,信息图表及数据可视化都有对于应的视觉出现,字体、颜色、元素比例于视觉效果上也很协调。 这两项使命真实的难点有两个。起首是异构素材的常识归并能力,公然信息来历涵盖了文本、图象等多种格局,SenseNova U1需要让堆叠的常识点彼此印证、归并,终极获得差异化的分层信息。没有真实的理解能力,做不到这一点。其次是逻辑感,提醒词很是精练,SenseNova U1却能自立对于汇集的内容举行弃取,找到一条合理的叙述逻辑,这一点于总结“滴血验亲”剧情的用例中,表现患上更为较着。 见惯了汉字于AI图片里扭曲成麻花,SenseNova U1于云云高密度的信息输出之下,正确率竟然也已经经到达了落地级别。手搓信息图以致PPT,也许很快就要成为一种正于消散的技术。 05 ▪GPU:保举16GB显存(8B-MoT尺度版) ▪低显存用户:8B-MoT-GGUF版本可于8GB显存下运行;撑持layer-offload,进一步降低显存占用 # 1. 进入 ComfyUI 的 custom_nodes 目次 cd ComfyUI/custom_nodes # 2. 克隆官方堆栈 git clone https://github.com/OpenSenseNova/SenseNova-U1 # 3. 安装依靠(保举 uv) uv pip install -r requirements.txt # 4. 配置 API Key(当地推理可跳过此步) export SENSENOVA_API_KEY=your_key_here # 5. 启动 ComfyUI,拖入 workflow_demo.json 便可运行 ▪8步推理加快版(SenseNova-U1-8B-MoT-8step-preview):年夜大都场景下天生质量与基础模子靠近,推理速率年夜幅晋升 ▪LoRA微调版(SenseNova-U1-8B-MoT-LoRA-8step-V1.0):撑持气势派头定制与场景适配 ▪GGUF量化版:由社区孝敬者@smthem提供,权重已经发布在HuggingFace,合适消费级GPU当地推理 对于在偏好免安装体验的用户,商汤还有同步提供了办公小浣熊https://office.xiaohuanxiong.com/home的体验方式,无需GPU,直接于阅读器中便可试用U1的焦点功效。 06 已往一年,主流年夜模子厂商于多模态理解侧的体现已经相对于趋同,GPT-4V、Gemini Pro、Qwen-VL等模子于图象理解、视频解析、文档理解等使命上的差距日趋收窄。但天生侧始终是短板——理解一个数据集,然后天生信息图或者建造一份PPT,往往需要挪用多个专用模子串联完成,不仅延迟高、气势派头一致性差,并且交付质量也乱七八糟。 SenseNova U1的差异化正于在此。把SenseNova U1放进多模态当前的竞争格式,你险些没法找到一样的定位: ▪GPT系列多模态理解能力一流,但原生图象天生仍旧依靠自力模块,走专用模子协作的途径 ▪Qwen-VL开源生态重大,但天生以文本输出为主 ▪DeepSeek-V4行业翘首以盼,但多模态天生亦不是其焦点卖点 此前头部玩家的焦点能力多集中于理解侧,SenseNova U1率先实现了天生及理解的原生交融。于端到端交付已经经成为Agent落地共鸣的今天,只要理解与天生之间还有绵亘着跨模块的鸿沟,反应于落地上,就是交付质量及出产效率的真实痛点。SenseNova U1一己之力,将这场拼交付的竞争,拉到了底层架构立异的高度。 技能阶段的代差自己就象征着出产力。SenseNova U1针对于企业办公场景做了定向优化,将信息图、PPT、研究陈诉这种高频交付物作为主要疆场,技能上风直接转化为了落地能力。由此,SenseNova U1才能于已经经是一片红海的生图市场盘踞一席之地,成为出产级使命的全新选择。 07 NEO-unify的焦点立异,就是让语言及视觉于统一个表征空间里配合介入每一一层计较。今后模子于天生图象时,不是于翻译文字指令,而是于统一个思维框架之下,使语言与视觉信息可以或许作为一个同一的复合体被直接建模。 同一架构会打破理解与天生之间的信息壁垒,消弭模块界限自己带来的信息损耗。当理解及天生成为统一种认知能力的两面,协同效应就再也不是设计的成果,而只是同一表征天然涌现的属性。这些改造配合支撑了运用层面的全新体验:同一架构起首象征着更强的繁杂指令遵照能力,同时多轮交互中跨模态推理的可视化,也加强了输出的可注释性,对于在抽象推理历程特别云云。 商汤还有于技能陈诉中经由过程一系列溶解试验,回覆了一个焦点问题:理解天生同一是否带来了真实的收益? 试验结论明确:同一架构于暗示、练习不变性及数据效率上确凿有收益,而不是一种折衷。 ▪原生像素-文本设计能同时保留语义及像素信息。试验验证了encoder-free架构不仅能学到理解所需的语义暗示,也能撑持像素级重修与编纂。纵然冻结理解分支,天生路径仍能恢复细节并完成较好的图象编纂——申明理解端练习的内涵表征其实不只是「理解token」,也具有天生所需的细粒度信息。 ▪MoT让理解与天生协同,而不是互相关扰。于结合mid-training及SFT阶段,纵然天生数据及理解数据配合练习,理解能力仍连结不变,天生能力还有收敛更快。MoT的参数解耦加同享留意力上下文,能有用降低理解/天生之间的内涵冲突。 ▪同一架构具有更高数据效率。NEO-unify比拟近似同一模子BAGEL,于更少练习token下取患上更好体现。缘故原由于在原生像素-文本接口削减了跨模块对于齐成本,MoT又让两类能力同享上下文、互相提供监视旌旗灯号,练习数据使用率是以更高。 单一模子替换专用模子协作的传统范式,可以或许显著降低存储、计较及部署成本,不外这还有只是真原生架构革命性的一角。 而更深远的意义于在,原生同一的多模态智能,仍旧是一条被寄与厚望的AGI之路。多模态智能的将来冲破,其实不只是简朴的范围扩展,更主要的是朝着深度交融进化的内核架构立异。今天底层范式及模子架构的立异正变患上愈来愈贵重。开原生同一架构之先河的SenseNova U1,也许会有与其汗青职位地方相匹配的体现——而这,才方才最先。 SenseNova U1:https://github.com/OpenSenseNova/SenseNova-U1/ SenseNova-Skills:https://github.com/OpenSenseNova/SenseNova-Skills 雷峰网(公家号:雷峰网)文章 雷峰网原创文章,未经授权禁止转载。详情见转载须知。












情况要求▪ Python ≥ 3.10,ComfyUI 最新版
▎加快与量化选项
