BBIN·宝盈-一台手掌大小、300克的AI主机，为什么能跑122B模型？

2026-06-08 03:36:27

一台手掌大小、300克的AI主机，为什么能跑122B模型？

把一台能运行122B年夜模子的AI主机塞入口袋，需要支付甚么价钱？

已往泰半年，端侧AI硬件的逻辑正于发生变化。

两个月前，海内掀起一场征象级的当地部署Agent热潮，年夜量AI喜好者最先“养虾”，让原本偏小众的Mac mini不测出圈，一度呈现溢价及缺货。于更硬核的开发者圈子里，三四万元的英伟达DGX Spark一样热度不低，由于它已经经可以或许于当地运行千亿参数模子。

Mac mini及DGX Spark同时走红，暗地里实在指向的是统一个趋向：Agent正于迅速举高端侧AI硬件的门坎。

此前，40TOPS级另外AI PC，仅能完成对于话、天生等轻量使命。但进入Agent时代后，开发者最先寻求更年夜的模子、更永劫间的当地推理，以和真正可以或许负担出产力使命的端侧AI装备。

问题随之呈现。Mac mini充足平静、低功耗，却很难支撑更年夜的当地模子；DGX Spark拥有强悍机能，但价格、功耗与散热，又很难真正走向普通化。年夜算力、低功耗与小体积之间，好像始终难以兼患上。

Agent时代真正缺乏的，再也不只是一台更强的AI PC，而是一种可以或许7×24小时运行、低功耗、平静，并具有当地履行能力的新终端。

一种介在AI PC与AI事情站之间的Agent Computer呈现了。近来发布的遐想AI主机P7，仅300克、30W功耗的装备，拥有190TOPS端侧AI算力，能于当地运行122B参数模子。

AI 2.0时代，需要如何的Agent Computer？

传统AI更多还有是一问一答式交互，使命竣事后，模子也随之住手运行。但Agent差别，它需要持久于线、连续挪用模子、自立拆解使命，并于当地完成影象、推理、履行等一整套历程。

这象征着Agent装备比拼的，再也不只是瞬时机能，而是持久不变运行能力。

换句话说，AI 2.0时代真正需要的不是AI PC的简朴进级版，而是一种介在AI PC与AI事情站之间的新终端，它既要具有运行年夜模子的能力，又必需统筹低功耗、静音、小体积，以和7×24小时连续事情的不变性。

遐想AI主机P7，恰是于AI 2.0需求下降生的Agent Computer新物种。它既测验考试靠近DGX Spark的年夜模子出产力能力，又保留了近似Mac mini的低功耗与静音特征。

一台手掌大小、300克的AI主机，为什么能跑122B模型？

P7拥有190TOPS异构AI算力（dNPU+SoC），此中160TOPS来自后摩漫界M50 dNPU，30TOPS来自此芯P1 SoC。整机最高撑持122B参数模子当地部署，最高可配置80GB RAM，并撑持128K上下文窗口。

于无网情况下，P7当地自立推理速率最高可达50 Tokens/s，可以实现7×24小时持续履行Agent使命。

缭绕Agent持久于线需求，P7的机身只有手掌巨细，重量约300克，甚至可以直接经由过程充电宝供电运行。为了于小体积下实现连续不变运行，P7还有将整机功耗节制于30W之内，并将运行噪音压低至35分贝如下。

这象征着，遐想AI主机P7已经经最先真正具有当地出产力价值。

更主要的是，与传统PC+AI的思绪差别，P7其实不是于原有装备中增长AI功效，而是缭绕Agent场景从头界说终端逻辑。

例如，P7采用了一机双模设计，于智能体模式下，当地运行天禧Claw，将繁杂使命尽可能留于当地履行；于年夜模子模式下，则经由过程开放API Key接入各种AI运用与智能体，直接负担当地推理与Token天生能力。

P7的推出代表着已往只有高功耗事情站才能负担的年夜模子当地推理能力，最先有时机进入更低功耗、更低成本的小型装备。

而只有当年夜模子推理可以或许于低功耗、小体积前提下持久运行，Agent才有可能真正从少数开发者装备，逐渐走向更广泛的消费级与行业终端场景。

支撑这类Agent Computer形态建立的，是P7暗地里一套差别在传统GPU线路的新算力方案。

千亿模子装入口袋以后，算力逻辑也变了

遐想于P7立项早期就已经经明确，要做一台能放入口袋、又能当地运行年夜模子的AI主机。这象征着它的芯片必需同时满意三个险些互斥的前提：年夜算力、低功耗、小体积。

传统AI芯片很难同时统筹这些需求，焦点于在数据搬运——计较单位与存储单位物理分散，数据于二者之间频仍流动，带来分外的能耗与延迟。

AI芯片行业是以不停摸索新的架构路径，此中一个正于被愈来愈多厂商摸索的标的目的就是存算一体，存算一体让数据于存储侧就近完成计较，从而削减搬运开消，晋升总体能效。

遐想选择引入存算一体架构芯片，作为P7的重要AI算力来历，也就是dNPU（Discrete NPU），它近似在自力GPU的定位，拥有更强的AI机能。

这颗dNPU，恰是后摩智能于2025年推出的存算一体AI芯片——后摩漫界M50。

后摩漫界M50采用存算一体架构设计，具有160TOPS物理算力，配备最高48GB内存与153.6GB/s带宽，典型功耗仅10W，能效到达传统架构芯片的5～10倍。

一台手掌大小、300克的AI主机，为什么能跑122B模型？

雷峰网(公家号：雷峰网)相识到，M50于设计阶段就针对于年夜模子部署举行了优化，经由过程SRAM与48GB LPDDR5的组合方案，于统筹机能的同时，晋升了千亿参数模子的可部署性与成本可控性。

真实的挑战不止在芯片，而是怎样让千亿参数模子于一台300克级另外装备上持久不变运行。这需要遐想与后摩智能于当地Agent体系、推理框架以和软硬件协同层面举行深度共同。

特别是于Agent履行链路、模子调理与端侧资源治理上，遐想需要一套全新的体系能力来支支持续运行的AI使命。

从2025年下半年项目正式启动最先，遐想与后摩智能组建结合团队，缭绕硬件设计、软件适配与推理框架睁开了长达十多个月的结合攻坚，终极实现了于后摩漫界M50上运行千亿参数年夜模子。

今朝，P7已经经撑持千问、智谱、DeepSeek等主流模子，并可实现新模子的Day0适配，即模子发布当天便可完成运行撑持。对于在用户而言，这使患上P7再也不只是演示型装备，而是一台可持久运行Agent使命的当地AI终端。

从芯片到体系，再到Agent履行能力，遐想与后摩智能正于配合验证一种新的AI主机形态。

跟着端侧年夜模子连续演进，这类统筹机能、功耗与持久运行能力的Agent Computer，正于成为AI 2.0时代最具实际落地潜力的终规矩向之一。

Agent 海潮重构硬件法则，存算一体迎来推理黄金时代

AI芯片的竞争逻辑，正于发生一场静默的翻转。

已往几年，行业的焦点指标是峰值算力，比拼的是谁能练习更年夜的模子，GPU也是以成为整个AI时代的焦点基础举措措施。

但当AI从1.0时代的天生一次回覆走向2.0时代的持久运行、连续履行使命的Agent形态后，芯片的评价系统最先变化：能效比、连续推理能力、当地履行繁杂使命的不变性，逐渐与峰值算力划一主要。

这一变化其实不是传统AI芯片的上风地点，却为新的架构路径打开了窗口。

一个较着的旌旗灯号来自行业巨头。英伟达重金收购草创公司 Groq 焦点技能资产，将其 LPU （Language Processing Unit）语言处置惩罚单位用在高机能推理场景。后摩智能与Groq都是存算一体技能线路，都是基在SRAM设计产物，削减数据搬运、晋升推理能效，只是产物叫法差别。

后摩智能于建立之初就专注在存算一体技能的研发与财产化，2024年推出针对于年夜模子推理优化的后摩漫界M30，撑持运行60亿参数模子，并得到了中国挪动等客户。

今朝，基在后摩漫界M50，后摩智能已经经搭建起M.2卡、DM.2卡、Pcie卡，最高 640TOPS 算力的完备产物矩阵，并完成为了从技能原型到范围化商用的要害超过。如此后摩漫界M50已经周全落地遐想AI主机P七、 AI PC、桌面呆板人、Agent Box、智能语音终端、AI 网关等多元端边场景。

后摩智能也于研发下一代芯片，方针是进一步晋升能效比与年夜模子推理能力，以适配将来更繁杂的Agent时代。

这是一个标记性的迁移转变点，GPU 界说了年夜模子练习时代，而 Agent 的周全发作，正将算力竞争从云端练习中央，推向海量的端侧、边沿推理节点。于这场算力格式迁徙中，以存算一体为代表的 AI 原生架构，再也不只是 GPU 的增补或者替换，更于慢慢成立端侧 Agent 时代的全新硬件尺度。

跟着Agent最先向更多当地装备渗入，行业对于在低功耗、高能效端边推理芯片的需求也会连续增长。

将来，缭绕端侧年夜模子推理，还有会呈现更多新的芯片形态与架构线路。

于这场Agent驱动的AI硬件范式切换中，AI原生的芯片成为竞争的要害，像后摩智能如许率先完成存算一体贸易化落地的公司，正于进入更年夜的增加通道。

更多关在推理时代算力需求的深度交流接待添加作者微信BENSONEIT。雷峰网雷峰网

雷峰网原创文章，未经授权禁止转载。详情见转载须知。

-BBIN·宝盈

产品

服务

关于BBIN·宝盈

信息公开

产品 +

服务 +

关于BBIN·宝盈 +

信息公开 +

投资者关系

加入BBIN·宝盈

客户留言