BBIN·宝盈-清程极智师天麾：MaaS盈利战打响，Infra技术已成利润关键

2026-03-27 18:34:07

2025年12月12-13日，第八届GAIR全世界人工智能与呆板人年夜会于深圳·博林天瑞喜来登旅店正式启幕。

作为AI产学研投界的标杆嘉会，GAIR自2016年开办以来，始终苦守“传承+立异”内核，始终致力在毗连技能前沿与财产实践。

于人工智能慢慢成为国度竞争焦点变量确当下，算力正之前所未有的速率重塑技能路径与财产布局。13日举办的“AI算力新十年”专场聚焦智能系统的底层焦点——算力，从架构演进、生态构建到财产化落地睁开体系会商，试图为将来十年的中国AI财产，厘清要害变量与成长标的目的。

于年夜会上，清程极智结合开创人、产物副总裁师天麾，带来了题为《智能算力的适配、优化及办事》的主题演讲。

清程极智师天麾：MaaS盈利战打响，Infra技术已成利润关键 | GAIR 2025

于国产算力从“能用”走向“好用”的要害阶段，AI Infra正从幕后走到台前。

师天麾给出的判定颇为直接：国产算力使用率的瓶颈，更多于在软件生态与体系级优化能力。

不管是缭绕国产芯片的全栈推理引擎自研、经由过程纯软件方式提早跑通FP4等低精度线路，还有是于MaaS（模子即办事）市场顶用评测、路由与同一接口“消弭信息差”，师天麾试图回覆的，都是统一个问题——

于芯片多元、成本高企的实际约束下，AI Infra怎样真正跑通机能、成本与贸易化的闭环？

演讲以外，他也于与雷峰网的对于谈中，进一步拆解了本身为什么选择从学术界直接创业，以和第三方AI Infra公司于芯片厂商与云厂商之间，毕竟能站于哪一个位置上。（作者持久存眷半导体、算力上下流等标的目的，接待添加微信 Ericazhao23 交流。）

对于话：MaaS机能每一经由过程推理引擎晋升一点，厂商就能多挣点钱

雷峰网：您以前曾经拿过年夜厂的offer但还有是想直接出来创业，做出这步决议计划的逻辑是甚么？

师天麾：我读博时期发论文还有比力顺遂，但一直于思索一个问题：做这工具到底有甚么用？直到厥后蚂蚁研究院及咱们互助，把我论文的技能用到金融风控场景里，实其实于晋升了不少机能，我就觉得颇有成绩感。

以是我想把研究结果真正落地，看看本身到底能创造甚么价值，就于卒业厥后到工业界。

但为何不去年夜厂？我及其他博士同窗聊过，觉得进年夜厂后就酿成了螺丝钉，我能预想到我面临的应该是很纯粹的技能身份，无法去lead产物的工作。虽然我也想已往年夜厂里熬炼两三年再出来，但其时已经经较着觉得到，AI已经经到了必需降本增效的要害节点，以是我及组里的教员及师兄弟磋商后，觉得时机不错，就直接出来创业了。

雷峰网：创业的这个标的目的让你有passion的是甚么部门？

师天麾：我2015年上年夜学，其时比力火的还有是上一代Deep learning，CV（计较机视觉）及NLP（天然语言处置惩罚），年夜一暑假去了家主动驾驶公司，实习CV类算法，但觉得不是我的兴致地点。

于黉舍进修下来，我觉得计较机体系类的课，好比计较机构成道理、系统布局、并行计较、高机能计较等，这些经由过程理解硬件、理解上层运用来把中间软件的机能写患上很高的工作，带给我的成绩感很年夜。

雷峰网：何时觉得到各人最先器重AI Infra？

师天麾：一个很主要的节点是DeepSeek的呈现，其时许多外国人惊呼DeepSeek用这么少的卡、这么少的钱就练习出这么年夜一个模子，但这靠的一是模子架构上的设计，二是Infra软件技能。厥后DeepSeek还有弄了“开源周”，开源了许多infra加快软件，让各人更意想到infra的主要性。

一个较着变化是，去年咱们还有要给投资人注释AI Infra是甚么，但本年投资人会自动来找咱们投资。

雷峰网：但海内市场遍及一直以来没有尤其器重软件，这类环境此刻会有改善吗？作为第三方自力的Infra厂商，会不会担忧将来芯片公司本身做这一层、代替了你们于做的事？

师天麾：实在市场一直以来器重硬件的惯性还有是于的。芯片厂商也需要一个推理引擎适配本身的芯片来提供应客户，以是他们本身也会做软件。不外咱们及芯片公司各有千秋，咱们于软件优化方面有更多堆集，以是芯片公司也会来找咱们互助，咱们从各自擅长的角度来做软硬件结合优化。

实在其实不能没有第三方公司来做这件事，好比年夜一点的国央企，会买多家厂商的芯片，那末要用谁的软件？并且各人做的都是挪用DeepSeek年夜模子这件事，差别芯片跑各自的软件，以后的治理及优化城市很是费劲。

雷峰网(公家号：雷峰网)：但此刻市场上这么多家AI infra，各人于贸易化上难度怎样？

师天麾：私有化部署的利润还有可以，但MaaS上，前两年Infra怎么帮用户晋升机能、怎么挣钱，这个通路没有跑很顺，以是贸易化会比力难。但此刻很是顺畅，由于MaaS的机能每一经由过程推理引擎晋升一点、就能多挣点钱，用咱们的推理引擎能挣更多钱，那天然就愿意费钱。

雷峰网：以是MaaS产物将来成长的趋向会是甚么样的？

师天麾：本年MaaS市场增加很快，但MaaS这个情势很是讲求优化技能，好比此刻的PD分散或者年夜EP并行，对于呆板范围有必然要求，不是一两台呆板就能做。

我很是看好这个模式，这个市场很是尺度，并且AIGC的创作者或者者AI运用的开发者能很是低门坎低成本用起来。以是将来MaaS就酿成一个卷机能及卷价格的时机，这是很好的时机及云厂商互助。并且要把MaaS价格打下来就需要年夜范围优化，清程极智又很擅长年夜范围的优化。

MaaS的盈利很看技能。由于省去了中间环节，利润损耗比力少，技能就更主要了。

雷峰网：看到你们的软件已经经能帮忙实现全平台FP4精度，做这个适配花了多久？

师天麾：适配到全平台FP4精度，实在于本年还有做了蛮久的，由于FP4比力触及芯片底层偏指令的范畴，要每一家零丁适配，并且要有适合的人材。

清程极智师天麾：MaaS盈利战打响，Infra技术已成利润关键 | GAIR 2025

演讲全文

如下是师天麾演讲的出色内容，雷峰网作了不转变原意的收拾与编纂：

谢谢主持人，列位专家、列位佳宾，各人下战书好！今天我演讲的标题问题是《智能算力的适配、优化与办事》。

起首简朴先容下清程极智，咱们是一家草创企业、是清华系的AI Infra公司。清程极智建立在2023年末，今朝咱们的技能栈，重要是整个AI软件栈，从底层编译器一直到上层的并行计较，咱们于这方面有比力多堆集，帮忙客户优化他们场景里的练习、推理、微调，做端到真个机能优化，给客户降本增效。今朝，咱们已经经完成为了三轮融资，股东包括财产方，好比方才演讲的并行科技，还有有许多北京市及上海市的国资。

起首先容下咱们本年主推的产物——赤兔推理引擎。

M×N困局：国产芯片生态绕不开的体系难题

各人常常说，国产算力的使用率偏低，为何？暂且不说国产算力的机能或者性价比凹凸，此刻最重要的问题是客户用不起来，而问题的泉源，就是配套软件欠好用。

我常常跟客户夸大：你采购的是硬件，但真正用的是软件，可软件是看不见、摸不着的存于，也很难让治理层大白价值。用户于利用中碰到问题，各人就归结为“硬件不行”，却纰漏了软件栈不完美这个焦点症结。咱们正于做的，就是补齐软件生态这块短板。

今朝各人利用较多的软件是外洋的开源推理引擎，但它们对于国产芯片的撑持力度有限，咱们怎样才能让国产推理芯片用患上更简朴、更高效？

谜底的第一步，就是必需要有专属的推理引擎——它的作用，就比如手机及电脑里的操作体系，是毗连AI运用与底层芯片的焦点桥梁。那末这个要害问题该怎样破解？

当前行业的近况是，各家芯片厂商都于自行适配推理引擎：先做vLLM的适配版，再做SGLang的适配版，末了可能还有要研发自研推理引擎。但现实环境是，即便差别厂商都声称适配了 vLLM 或者 SGLang，相互的适配版本、撑持功效及接口却并不是彻底一致。也就是说，看似同名的适配方案，其实不是一套通用软件就能兼容所有显卡。

这给用户带来了很年夜挑战：不少国央企客户会采购多家厂商的芯片，成果就需要差别软件别离对于接差别显卡，后续的开发维护难度就很年夜。而咱们自研的赤兔推理引擎，既能很好地适配海外显卡，更能兼容国产芯片——像华为、沐曦、海光、燧原等主流产物都能无缝对于接，极年夜降低了客户的利用门坎。

清程极智师天麾：MaaS盈利战打响，Infra技术已成利润关键 | GAIR 2025

不外，适配浩繁芯片的历程中，会碰到一个体系范畴比力经典的“M×N”的问题：底层有N款差别的芯片，上层有M个差别的年夜模子，假如要于N款芯片上把M个模子机能都跑出极致，就要完成M×N次的组合优化，事情量很是年夜。而AI Infra范畴的门坎又很高，没有那末多人材来完成这么多年夜事情量的适配及优化。怎样破局？就要站于伟人的肩膀上。

已往数年，PyTorch于开源生态的设置装备摆设上成效显著。今朝，一方面，显卡厂商会默许适配PyTorch的算子集；另外一方面，绝年夜大都上层年夜模子自己就是基在PyTorch框架开发的。只要把这两层的适配事情做好，就能让年夜模子顺畅地跑起来。但 “能跑” 只是出发点，要实现极致性价比，还有需要于推理引擎上做深度优化——咱们的赤兔推理引擎，恰是构建于PyTorch算子集之上的高机能方案。

也常常有人问，为何不直接用vLLM或者SGLang，或者者轻微改一改？

基在现有方案虽也算是一条技能路径，但可优化的空间有限。这种体系的架构分为多层：底层有算子层，上层还有叠加了各种优化方案。假如仅对于底层算子层做优化且连结底层接口稳定，体系仍能与开源生态兼容；可一旦改动上层优化逻辑，而开源社区同步更新了对于应模块，二者可能再难兼容。

面临这类冲突，那末要末抛却自研的上层优化计谋，要末完全离开开源社区的技能迭代线路。并且，从vLLM、SGLang这种主流框架分叉出自力的技能分支，后续的维护及迭代也会极其错乱，技能包袱会愈来愈重。这恰是咱们选择全栈自研的焦点缘故原由。

与此同时，当前算力成本很高，要实现极致的性价比，必需买通底层硬件、算子层、推理引擎、上层算法与运用的全链路，经由过程端到真个体系级结合优化，才能告竣最优效果。咱们提出的跨多层结合优化方案，但只有基在自研推理引擎才能更高效地落地，它更矫捷，能支撑全链路协同优化。

接下来给各人先容赤兔推理引擎的最新进展。咱们昨天方才发布了0.5版本，这个版本带来了多项焦点特征，算力超节点上提供开箱即用的年夜范围推理部署能力，包括超年夜范围专家并行、PD分散、AF分散等要害能力。值患上存眷的是，针对于前段时间备受行业存眷的华为384超节点方案，咱们已经完成深度适配与机能优化，并同步于昨天正式发布相干撑持能力。

赤兔推理引擎拥有一项焦点技能特点。本年 DeepSeek 模子的爆火，让各人留意到它的原生数据格局是 FP8，但今朝年夜部门国产显卡其实不撑持FP8格局，仅能兼容int8或者FP16。这就给客户带来了两难选择：假如用FP16运行，会致使显存占用翻倍，需要投入双倍的呆板成本，性价比极低；假如改用int8，整数格局又会捐躯浮点数的精度，影响模子效果。而从行业趋向来看，年夜模子正朝着低位宽浮点数的标的目的演进，海内今朝不仅缺少对于FP8的完美撑持，FP4的适配更是遥遥无期。

咱们的解决方案是经由过程纯软件技能冲破硬件限定——即便底层硬件不撑持，咱们也能让FP4及FP8格局顺畅运行，把将来几年才可能普和的特征提早落地，而且已经于多款国产显卡上完成适配。详细来讲，咱们经由过程底层指令转化技能实现这一冲破：于接近指令集内层的底层接口做适配，计较时为包管精度转成FP16处置惩罚，存储时则采用FP8格局，既统筹了效果又节制了显存占用。FP4的适配逻辑与此一致，今朝已经撑持英伟达、昇腾、海光、沐曦等多款硬件平台。咱们于DeepSeek-R1上的测试也印证了技能标的目的的准确性：差别精度格局的效果排序为FP8 FP4 INT8 INT4，这充实申明FP4这种低位宽浮点数格局确凿是年夜模子成长的主流趋向。

MaaS市场纷纭繁杂，怎样消弭信息差？

解决了国产算力“能用”及“用好”的问题，更要思索怎样实现贸易价值。为此咱们推出了另外一款产物 ——AI Ping，这是一个一站式年夜模子办事评测与API挪用平台。适才有带领提到了MaaS（模子即办事），而AI Ping恰是对于MaaS模式的落地实践：

它的成本及利用门坎极低，单次API挪用用度甚至不到一分钱，不会编程也能轻松上手；同时实现了快速迭代、开箱即用，用户彻底不消体贴办事部署于国产显卡还有是英伟达显卡上，更无需相识底层技能实现细节。并且依托暗地里的年夜范围集群与资源池，它的扩大性及并发撑持能力极强，运用开发者只需聚焦自身营业与AI功效开发，无需分心底层运维。

清程极智师天麾：MaaS盈利战打响，Infra技术已成利润关键 | GAIR 2025

本年国务院发布的《关在深切实行 “人工智能 +” 步履的定见》中，尤其夸大了要打造MaaS生态；IDC去年曾经猜测本年市场增加率会到达100%，其时我就感觉这个猜测偏守旧，果然前不久最新数据显示，本年上半年中国MaaS市场增加率已经经跨越400%，不少头部云厂商甚至提早完成为了年度方针。

中国实在具有成长MaaS财产的很好泥土。从供应侧看，咱们拥有全世界最繁荣的开源模子生态，只要有办事器就能部署热点模子，同时AI算力最近几年来发作式增加，各种智算中央提供了足够的基础举措措施支撑；从需求侧讲，MaaS的低成本、低门坎上风，让企业开发者能快速看到落地效果，小我私家开发者则无需负担昂扬的办事器租赁成本，科研职员及平凡消费者也能轻松享遭到AI办事。此刻许多To C真个谈天、翻译软件，自己集成为了AI功效却没有底层办事能力，用户只需于MaaS平台注册账号，把API接入这些运用，就能直接利用账号余额消费，这类模式已经经被年夜量To C运用采用。

但不成否定的是，MaaS财产还有处在起步阶段。联合咱们的实践不雅察，当前中国MaaS行业的痛点重要有甚么？

起首，于供应侧，此刻有许多指标来判定办事的好坏，于延迟、吞吐、靠得住性、输入/输出价格、上下文长度、最年夜可输出长度等这些指标上，各人各具特点。以几家最知名的互联网云厂商及电信运营商举例，于不异模子以和价格不异的环境下，模子效果及价格同样，机能（吞吐、延迟）却可以差5倍。不管对于企业还有是小我私家来讲，都不成能挨个试所有供给商的办事，这中间是存于信息差的。

需求侧，各人的需求也纷歧样，企业可能想要延迟低一点，用户体验好；小我私家可能但愿价格自制一点，机能差未几就能够；对于科研职员来讲，有经费，但但愿模子很是富厚，更快用到最新的模子；平凡消费者则更存眷体验、功效、成本等方面。

供应侧及需求侧都各别，那用户应该找谁家来用？怎样对于齐供需？对于此，咱们推出了AI Ping，测试市道上能见到、接入的所有MaaS厂商。

起首，咱们的评测彻底站于用户视角睁开，采用匿名端到端测试模式。市道上有些测试聚焦在集群范围，但对于小我私家用户而言，他们对于MaaS厂商传播鼓吹的重大集群、办事器数目及并发能力其实不伤风——究竟这些资源并不是为单个用户独享。咱们更存眷的是，个别客户能从平台切实获取到如何的机能，真正以真实客户的需求为焦点开展评测。

其次，咱们的评测笼罩规模极广，今朝已经接入29家MaaS厂商，整合了400余项MaaS办事，力图实现应接尽接。第三，咱们履行7×24小时不间断评测，连续监控各模子的机能、吞吐、靠得住性等焦点指标；信息聚合的维度也十分周全，除了了机能指标外，价格、上下文长度、最年夜可输出长度等开发者重点存眷的参数，咱们也都于AI Ping举行了汇总。

清程极智师天麾：MaaS盈利战打响，Infra技术已成利润关键 | GAIR 2025

AI Ping的评测要领也很是靠得住，咱们与清华年夜学举行了互助，依托翟季冬传授团队多年来评测中国超算中央的富厚经验，由其提供一套成熟靠得住的评测要领论，咱们卖力完成工程化落地及技能撑持。

关在评测数据的正确性，咱们也做了交织验证：拔取部门自带后台机能监控的云厂商，将咱们的评测成果与其监控数据比对于，显示吞吐指标的平均偏差于 0.2% 之内，精准度极高。P90 初次延迟不变于 0.8 秒之内，处在合理区间。需要申明的是，咱们统计的是端到端延迟，而云厂商的监控数据不包罗收集传输时间，综合来看，咱们的机能测试成果具有高度正确性与可托度。

咱们还有会于官网首页天天更新模子的排名。假如部门客户有非凡要求，好比但愿初次延迟于5秒之内、输出吞吐于40TPS以上，那就能够直接利用咱们的筛选及排序功效，快速找到切合要求的供给商。

“路由”功效离别MaaS供给商选型困境

堆集了年夜量评测数据后，咱们还有思索怎样为用户提供更深切、更优质的办事。也许你看过评测后，会选定某一家供给商，但零丁选择一家供给商实在存于不少问题。

起首，是性价比难以不变。供给商的机能会呈现颠簸，但价格凡是不会容易变更，除了非碰到用户勾当才会调解，这就致使性价比始终处在颠簸状况，单家供给商很难一直连结最高性价比。

其次，办事不变性缺少保障。好比本年年头各人利用DeepSeek模子时，就常常碰到办事拒绝哀求的环境，泉源于在用户量过年夜，后台支撑不足；除了此以外，办事器忙碌、收集抖动、体系宕机甚至办事忽然下架等问题，城市严峻影响用户利用。

同时，改换供给商的历程也十分繁琐。每一换一家供给商，都需要从头注册、认证、充值；即即是统一个模子，于差别供给商平台的接口、撑持的参数以和返回的过错码都各不不异。例犹如样是并发上限、办事忙碌、参数过错这种问题，差别供给商返回的过错码却纷歧样，用户不能不从头对于接API、修改过错处置惩罚代码。这种工程问题很是棘手，是步伐员们遍及反感的贫苦事。

是以，于评测及数据展示功效以外，咱们分外开发了供给商路由功效。咱们会提供同一的接口，好比你要利用DeepSeek模子，只需接入咱们这一个接口，就能直接挪用暗地里20多家供给商的资源，年夜幅节省适配成本。不管是开源模子还有是闭源模子，咱们城市周全接入用户基本能找到所有需要的模子；假如有模子还没有上架，用户随时提出需求，咱们会第一时间完成上架。

这个功效还有具有高可用性：当某一家供给商呈现忙碌、宕机或者办事报错时，体系会主动将哀求切换至其他供给商。同时，咱们会提供高性价比保举办事，用户可以按照自身需求选择“成本优先”或者“机能优先”，体系会筛选出切合前提的供给商。并且所有数据彻底透明，机能体现、Token耗损以和孕育发生的用度，城市于后台及时反馈。按照过往数据，这个功效至多能帮忙用户降低50%的成本，同时延迟及吞吐指标也有较着优化。

本年清华年夜学结合中国软件评测中央发布“2025年夜模子办事机能排行榜”，将咱们于市道上找到的20多家供给商的热点模子办事全数比了一遍，由第三方机构发榜，咱们提供工程实现、数据评测与展示平台。

接待各人存眷咱们的公家号或者插手用户交流群，也能够看看咱们的官网。每一次新模子发布，咱们的公家号上会于最快时间发布新模子的解读，以和有哪些供给商上架、机能环境，咱们城市发布排行榜，帮忙用户举行选型。

谢谢各人，也谢谢各人存眷清程极智。

雷峰网原创文章，未经授权禁止转载。详情见转载须知。

-BBIN·宝盈

产品

服务

关于BBIN·宝盈

信息公开

产品 +

服务 +

关于BBIN·宝盈 +

信息公开 +

投资者关系

加入BBIN·宝盈

客户留言