产品 +

iEnter|智慧企业 +

企业资源计划管理系统

智钉

iManu|智能制造 +

制造执行系统

物流执行系统

高级计划及排程

iSupply|智慧供应链 +

运输管理系统

仓储管理系统

供应商关系管理系统

EP|智慧生态营销 +

经销商管理系统

全面营销管理系统

客户关系管理系统

Connect|智能网联 +

智能网联云平台

新能源汽车监控平台

商用车企业监控平台

电检系统

行驶记录仪

车载T-BOX

汽车故障诊断仪

国六OBD产品

后装GPS产品

DataValue|数据价值赋能 +

智慧质量

线索运营

智慧广告

Platform|云原生PaaS平台 +

云原生PaaS平台

容器引擎(QKP)

AI智能服务平台

API网关平台

低代码平台-QLCP

元宇宙技术探索平台

数据中台

智能运维平台

服务 +

咨询 +

车路协同解决方案

IT咨询

云原生技术架构规划与咨询服务

评测 +

网络安全等级保护测评

实施 +

电子电气检测服务

网联产品组装制造

运维 +

桌面及外围设备运维服务

云服务(IDC)

销贷服务

乘用车车联网运营服务

商用车车联网运营服务

客户联络中心运营服务

数据价值运营服务

K8s运维

关于BBIN·宝盈 +

企业简介 +

企业简介

BBIN·宝盈行业地位 +

BBIN·宝盈企业荣誉

BBIN·宝盈行业地位

BBIN·宝盈资质认证

社会责任 +
企业文化 +
投资者关系 +
BBIN·宝盈麾下企业 +
加入BBIN·宝盈 +

BBIN·宝盈业务发展规划

BBIN·宝盈福利待遇

人才招聘

信息公开 +

企业基本信息 +

企业概况

经营范围

市场主体登记基本信息

组织机构

成员单位

资质荣誉

企业重大事项 +

股权信息

产权信息

研发成果

企业经营管理 +

财务与经营状况

品牌与产品

安全环保 +

安全信息

招标招募 +

招标信息

人力资源 +

招聘信息

社会责任 +
企业公告 +

上市公司

公告信息

投资者关系

加入BBIN·宝盈

客户留言

BBIN·宝盈-清程极智师天麾:MaaS盈利战打响,Infra技术已成利润关键
2026-03-27 18:34:07

  

2025年12月12-13日,第八届GAIR全世界人工智能与呆板人年夜会于深圳·博林天瑞喜来登旅店正式启幕。

作为AI产学研投界的标杆嘉会,GAIR自2016年开办以来,始终苦守“传承+立异”内核,始终致力在毗连技能前沿与财产实践。

于人工智能慢慢成为国度竞争焦点变量确当下,算力正之前所未有的速率重塑技能路径与财产布局。13日举办的“AI算力新十年”专场聚焦智能系统的底层焦点——算力,从架构演进、生态构建到财产化落地睁开体系会商,试图为将来十年的中国AI财产,厘清要害变量与成长标的目的。

于年夜会上,清程极智结合开创人、产物副总裁师天麾,带来了题为《智能算力的适配、优化及办事》的主题演讲。

清程极智师天麾:MaaS盈利战打响,Infra技术已成利润关键 | GAIR 2025

于国产算力从“能用”走向“好用”的要害阶段,AI Infra正从幕后走到台前。

师天麾给出的判定颇为直接:国产算力使用率的瓶颈,更多于在软件生态与体系级优化能力。

不管是缭绕国产芯片的全栈推理引擎自研、经由过程纯软件方式提早跑通FP4等低精度线路,还有是于MaaS(模子即办事)市场顶用评测、路由与同一接口“消弭信息差”,师天麾试图回覆的,都是统一个问题——

于芯片多元、成本高企的实际约束下,AI Infra怎样真正跑通机能、成本与贸易化的闭环?

演讲以外,他也于与雷峰网的对于谈中,进一步拆解了本身为什么选择从学术界直接创业,以和第三方AI Infra公司于芯片厂商与云厂商之间,毕竟能站于哪一个位置上。(作者持久存眷半导体、算力上下流等标的目的,接待添加微信 Ericazhao23 交流。)

对于话:MaaS机能每一经由过程推理引擎晋升一点,厂商就能多挣点钱

雷峰网:您以前曾经拿过年夜厂的offer但还有是想直接出来创业,做出这步决议计划的逻辑是甚么?

师天麾:我读博时期发论文还有比力顺遂,但一直于思索一个问题:做这工具到底有甚么用?直到厥后蚂蚁研究院及咱们互助,把我论文的技能用到金融风控场景里,实其实于晋升了不少机能,我就觉得颇有成绩感。

以是我想把研究结果真正落地,看看本身到底能创造甚么价值,就于卒业厥后到工业界。

但为何不去年夜厂?我及其他博士同窗聊过,觉得进年夜厂后就酿成了螺丝钉,我能预想到我面临的应该是很纯粹的技能身份,无法去lead产物的工作。虽然我也想已往年夜厂里熬炼两三年再出来,但其时已经经较着觉得到,AI已经经到了必需降本增效的要害节点,以是我及组里的教员及师兄弟磋商后,觉得时机不错,就直接出来创业了。

雷峰网:创业的这个标的目的让你有passion的是甚么部门?

师天麾:我2015年上年夜学,其时比力火的还有是上一代Deep learning,CV(计较机视觉)及NLP(天然语言处置惩罚),年夜一暑假去了家主动驾驶公司,实习CV类算法,但觉得不是我的兴致地点。

于黉舍进修下来,我觉得计较机体系类的课,好比计较机构成道理、系统布局、并行计较、高机能计较等,这些经由过程理解硬件、理解上层运用来把中间软件的机能写患上很高的工作,带给我的成绩感很年夜。

雷峰网:何时觉得到各人最先器重AI Infra?

师天麾:一个很主要的节点是DeepSeek的呈现,其时许多外国人惊呼DeepSeek用这么少的卡、这么少的钱就练习出这么年夜一个模子,但这靠的一是模子架构上的设计,二是Infra软件技能。厥后DeepSeek还有弄了“开源周”,开源了许多infra加快软件,让各人更意想到infra的主要性。

一个较着变化是,去年咱们还有要给投资人注释AI Infra是甚么,但本年投资人会自动来找咱们投资。

雷峰网:但海内市场遍及一直以来没有尤其器重软件,这类环境此刻会有改善吗?作为第三方自力的Infra厂商,会不会担忧将来芯片公司本身做这一层、代替了你们于做的事?

师天麾:实在市场一直以来器重硬件的惯性还有是于的。芯片厂商也需要一个推理引擎适配本身的芯片来提供应客户,以是他们本身也会做软件。不外咱们及芯片公司各有千秋,咱们于软件优化方面有更多堆集,以是芯片公司也会来找咱们互助,咱们从各自擅长的角度来做软硬件结合优化。

实在其实不能没有第三方公司来做这件事,好比年夜一点的国央企,会买多家厂商的芯片, 那末要用谁的软件?并且各人做的都是挪用DeepSeek年夜模子这件事,差别芯片跑各自的软件,以后的治理及优化城市很是费劲。

雷峰网(公家号:雷峰网):但此刻市场上这么多家AI infra,各人于贸易化上难度怎样?

师天麾:私有化部署的利润还有可以,但MaaS上,前两年Infra怎么帮用户晋升机能、怎么挣钱, 这个通路没有跑很顺,以是贸易化会比力难。但此刻很是顺畅,由于MaaS的机能每一经由过程推理引擎晋升一点、就能多挣点钱,用咱们的推理引擎能挣更多钱,那天然就愿意费钱。

雷峰网:以是MaaS产物将来成长的趋向会是甚么样的?

师天麾:本年MaaS市场增加很快,但MaaS这个情势很是讲求优化技能,好比此刻的PD分散或者年夜EP并行,对于呆板范围有必然要求,不是一两台呆板就能做。

我很是看好这个模式,这个市场很是尺度,并且AIGC的创作者或者者AI运用的开发者能很是低门坎低成本用起来。以是将来MaaS就酿成一个卷机能及卷价格的时机,这是很好的时机及云厂商互助。并且要把MaaS价格打下来就需要年夜范围优化,清程极智又很擅长年夜范围的优化。

MaaS的盈利很看技能。由于省去了中间环节,利润损耗比力少,技能就更主要了。

雷峰网:看到你们的软件已经经能帮忙实现全平台FP4精度,做这个适配花了多久?

师天麾:适配到全平台FP4精度,实在于本年还有做了蛮久的,由于FP4比力触及芯片底层偏指令的范畴,要每一家零丁适配,并且要有适合的人材。

清程极智师天麾:MaaS盈利战打响,Infra技术已成利润关键 | GAIR 2025

演讲全文

如下是师天麾演讲的出色内容,雷峰网作了不转变原意的收拾与编纂:

谢谢主持人,列位专家、列位佳宾,各人下战书好!今天我演讲的标题问题是《智能算力的适配、优化与办事》。

起首简朴先容下清程极智,咱们是一家草创企业、是清华系的AI Infra公司。清程极智建立在2023年末,今朝咱们的技能栈,重要是整个AI软件栈,从底层编译器一直到上层的并行计较,咱们于这方面有比力多堆集,帮忙客户优化他们场景里的练习、推理、微调,做端到真个机能优化,给客户降本增效。今朝,咱们已经经完成为了三轮融资,股东包括财产方,好比方才演讲的并行科技,还有有许多北京市及上海市的国资。

起首先容下咱们本年主推的产物——赤兔推理引擎。

M×N困局:国产芯片生态绕不开的体系难题

各人常常说,国产算力的使用率偏低,为何?暂且不说国产算力的机能或者性价比凹凸,此刻最重要的问题是客户用不起来,而问题的泉源,就是配套软件欠好用。

我常常跟客户夸大:你采购的是硬件,但真正用的是软件,可软件是看不见、摸不着的存于,也很难让治理层大白价值。用户于利用中碰到问题,各人就归结为“硬件不行”,却纰漏了软件栈不完美这个焦点症结。咱们正于做的,就是补齐软件生态这块短板。

今朝各人利用较多的软件是外洋的开源推理引擎,但它们对于国产芯片的撑持力度有限,咱们怎样才能让国产推理芯片用患上更简朴、更高效?

谜底的第一步,就是必需要有专属的推理引擎——它的作用,就比如手机及电脑里的操作体系,是毗连AI运用与底层芯片的焦点桥梁。那末这个要害问题该怎样破解?

当前行业的近况是,各家芯片厂商都于自行适配推理引擎:先做vLLM的适配版,再做SGLang的适配版,末了可能还有要研发自研推理引擎。但现实环境是,即便差别厂商都声称适配了 vLLM 或者 SGLang,相互的适配版本、撑持功效及接口却并不是彻底一致。也就是说,看似同名的适配方案,其实不是一套通用软件就能兼容所有显卡。

这给用户带来了很年夜挑战:不少国央企客户会采购多家厂商的芯片,成果就需要差别软件别离对于接差别显卡,后续的开发维护难度就很年夜。而咱们自研的赤兔推理引擎,既能很好地适配海外显卡,更能兼容国产芯片——像华为、沐曦、海光、燧原等主流产物都能无缝对于接,极年夜降低了客户的利用门坎。

清程极智师天麾:MaaS盈利战打响,Infra技术已成利润关键 | GAIR 2025

不外,适配浩繁芯片的历程中,会碰到一个体系范畴比力经典的“M×N”的问题:底层有N款差别的芯片,上层有M个差别的年夜模子,假如要于N款芯片上把M个模子机能都跑出极致,就要完成M×N次的组合优化,事情量很是年夜。而AI Infra范畴的门坎又很高,没有那末多人材来完成这么多年夜事情量的适配及优化。怎样破局?就要站于伟人的肩膀上。

已往数年,PyTorch于开源生态的设置装备摆设上成效显著。今朝,一方面,显卡厂商会默许适配PyTorch的算子集;另外一方面,绝年夜大都上层年夜模子自己就是基在PyTorch框架开发的。只要把这两层的适配事情做好,就能让年夜模子顺畅地跑起来。但 “能跑” 只是出发点,要实现极致性价比,还有需要于推理引擎上做深度优化——咱们的赤兔推理引擎,恰是构建于PyTorch算子集之上的高机能方案。

也常常有人问,为何不直接用vLLM或者SGLang,或者者轻微改一改?

基在现有方案虽也算是一条技能路径,但可优化的空间有限。这种体系的架构分为多层:底层有算子层,上层还有叠加了各种优化方案。假如仅对于底层算子层做优化且连结底层接口稳定,体系仍能与开源生态兼容;可一旦改动上层优化逻辑,而开源社区同步更新了对于应模块,二者可能再难兼容。

面临这类冲突,那末要末抛却自研的上层优化计谋,要末完全离开开源社区的技能迭代线路。并且,从vLLM、SGLang这种主流框架分叉出自力的技能分支,后续的维护及迭代也会极其错乱,技能包袱会愈来愈重。这恰是咱们选择全栈自研的焦点缘故原由。

与此同时,当前算力成本很高,要实现极致的性价比,必需买通底层硬件、算子层、推理引擎、上层算法与运用的全链路,经由过程端到真个体系级结合优化,才能告竣最优效果。咱们提出的跨多层结合优化方案,但只有基在自研推理引擎才能更高效地落地,它更矫捷,能支撑全链路协同优化。

接下来给各人先容赤兔推理引擎的最新进展。咱们昨天方才发布了0.5版本,这个版本带来了多项焦点特征,算力超节点上提供开箱即用的年夜范围推理部署能力,包括超年夜范围专家并行、PD分散、AF分散等要害能力。值患上存眷的是,针对于前段时间备受行业存眷的华为384超节点方案,咱们已经完成深度适配与机能优化,并同步于昨天正式发布相干撑持能力。

赤兔推理引擎拥有一项焦点技能特点。本年 DeepSeek 模子的爆火,让各人留意到它的原生数据格局是 FP8,但今朝年夜部门国产显卡其实不撑持FP8格局,仅能兼容int8或者FP16。这就给客户带来了两难选择:假如用FP16运行,会致使显存占用翻倍,需要投入双倍的呆板成本,性价比极低;假如改用int8,整数格局又会捐躯浮点数的精度,影响模子效果。而从行业趋向来看,年夜模子正朝着低位宽浮点数的标的目的演进,海内今朝不仅缺少对于FP8的完美撑持,FP4的适配更是遥遥无期。

咱们的解决方案是经由过程纯软件技能冲破硬件限定——即便底层硬件不撑持,咱们也能让FP4及FP8格局顺畅运行,把将来几年才可能普和的特征提早落地,而且已经于多款国产显卡上完成适配。详细来讲,咱们经由过程底层指令转化技能实现这一冲破:于接近指令集内层的底层接口做适配,计较时为包管精度转成FP16处置惩罚,存储时则采用FP8格局,既统筹了效果又节制了显存占用。FP4的适配逻辑与此一致,今朝已经撑持英伟达、昇腾、海光、沐曦等多款硬件平台。咱们于DeepSeek-R1上的测试也印证了技能标的目的的准确性:差别精度格局的效果排序为FP8 FP4 INT8 INT4,这充实申明FP4这种低位宽浮点数格局确凿是年夜模子成长的主流趋向。

MaaS市场纷纭繁杂,怎样消弭信息差?

解决了国产算力“能用”及“用好”的问题,更要思索怎样实现贸易价值。为此咱们推出了另外一款产物 ——AI Ping,这是一个一站式年夜模子办事评测与API挪用平台。适才有带领提到了MaaS(模子即办事),而AI Ping恰是对于MaaS模式的落地实践:

它的成本及利用门坎极低,单次API挪用用度甚至不到一分钱,不会编程也能轻松上手;同时实现了快速迭代、开箱即用,用户彻底不消体贴办事部署于国产显卡还有是英伟达显卡上,更无需相识底层技能实现细节。并且依托暗地里的年夜范围集群与资源池,它的扩大性及并发撑持能力极强,运用开发者只需聚焦自身营业与AI功效开发,无需分心底层运维。

清程极智师天麾:MaaS盈利战打响,Infra技术已成利润关键 | GAIR 2025

本年国务院发布的《关在深切实行 “人工智能 +” 步履的定见》中,尤其夸大了要打造MaaS生态;IDC去年曾经猜测本年市场增加率会到达100%,其时我就感觉这个猜测偏守旧,果然前不久最新数据显示,本年上半年中国MaaS市场增加率已经经跨越400%,不少头部云厂商甚至提早完成为了年度方针。

中国实在具有成长MaaS财产的很好泥土。从供应侧看,咱们拥有全世界最繁荣的开源模子生态,只要有办事器就能部署热点模子,同时AI算力最近几年来发作式增加,各种智算中央提供了足够的基础举措措施支撑;从需求侧讲,MaaS的低成本、低门坎上风,让企业开发者能快速看到落地效果,小我私家开发者则无需负担昂扬的办事器租赁成本,科研职员及平凡消费者也能轻松享遭到AI办事。此刻许多To C真个谈天、翻译软件,自己集成为了AI功效却没有底层办事能力,用户只需于MaaS平台注册账号,把API接入这些运用,就能直接利用账号余额消费,这类模式已经经被年夜量To C运用采用。

但不成否定的是,MaaS财产还有处在起步阶段。联合咱们的实践不雅察,当前中国MaaS行业的痛点重要有甚么?

起首,于供应侧,此刻有许多指标来判定办事的好坏,于延迟、吞吐、靠得住性、输入/输出价格、上下文长度、最年夜可输出长度等这些指标上,各人各具特点。以几家最知名的互联网云厂商及电信运营商举例,于不异模子以和价格不异的环境下,模子效果及价格同样,机能(吞吐、延迟)却可以差5倍。不管对于企业还有是小我私家来讲,都不成能挨个试所有供给商的办事,这中间是存于信息差的。

需求侧,各人的需求也纷歧样,企业可能想要延迟低一点,用户体验好;小我私家可能但愿价格自制一点,机能差未几就能够;对于科研职员来讲,有经费,但但愿模子很是富厚,更快用到最新的模子;平凡消费者则更存眷体验、功效、成本等方面。

供应侧及需求侧都各别,那用户应该找谁家来用?怎样对于齐供需?对于此,咱们推出了AI Ping,测试市道上能见到、接入的所有MaaS厂商。

起首,咱们的评测彻底站于用户视角睁开,采用匿名端到端测试模式。市道上有些测试聚焦在集群范围,但对于小我私家用户而言,他们对于MaaS厂商传播鼓吹的重大集群、办事器数目及并发能力其实不伤风——究竟这些资源并不是为单个用户独享。咱们更存眷的是,个别客户能从平台切实获取到如何的机能,真正以真实客户的需求为焦点开展评测。

其次,咱们的评测笼罩规模极广,今朝已经接入29家MaaS厂商,整合了400余项MaaS办事,力图实现应接尽接。第三,咱们履行7×24小时不间断评测,连续监控各模子的机能、吞吐、靠得住性等焦点指标;信息聚合的维度也十分周全,除了了机能指标外,价格、上下文长度、最年夜可输出长度等开发者重点存眷的参数,咱们也都于AI Ping举行了汇总。

清程极智师天麾:MaaS盈利战打响,Infra技术已成利润关键 | GAIR 2025

AI Ping的评测要领也很是靠得住,咱们与清华年夜学举行了互助,依托翟季冬传授团队多年来评测中国超算中央的富厚经验,由其提供一套成熟靠得住的评测要领论,咱们卖力完成工程化落地及技能撑持。

关在评测数据的正确性,咱们也做了交织验证:拔取部门自带后台机能监控的云厂商,将咱们的评测成果与其监控数据比对于,显示吞吐指标的平均偏差于 0.2% 之内,精准度极高。P90 初次延迟不变于 0.8 秒之内,处在合理区间。需要申明的是,咱们统计的是端到端延迟,而云厂商的监控数据不包罗收集传输时间,综合来看,咱们的机能测试成果具有高度正确性与可托度。

咱们还有会于官网首页天天更新模子的排名。假如部门客户有非凡要求,好比但愿初次延迟于5秒之内、输出吞吐于40TPS以上,那就能够直接利用咱们的筛选及排序功效,快速找到切合要求的供给商。

“路由”功效离别MaaS供给商选型困境

堆集了年夜量评测数据后,咱们还有思索怎样为用户提供更深切、更优质的办事。也许你看过评测后,会选定某一家供给商,但零丁选择一家供给商实在存于不少问题。

起首,是性价比难以不变。供给商的机能会呈现颠簸,但价格凡是不会容易变更,除了非碰到用户勾当才会调解,这就致使性价比始终处在颠簸状况,单家供给商很难一直连结最高性价比。

其次,办事不变性缺少保障。好比本年年头各人利用DeepSeek模子时,就常常碰到办事拒绝哀求的环境,泉源于在用户量过年夜,后台支撑不足;除了此以外,办事器忙碌、收集抖动、体系宕机甚至办事忽然下架等问题,城市严峻影响用户利用。

同时,改换供给商的历程也十分繁琐。每一换一家供给商,都需要从头注册、认证、充值;即即是统一个模子,于差别供给商平台的接口、撑持的参数以和返回的过错码都各不不异。例犹如样是并发上限、办事忙碌、参数过错这种问题,差别供给商返回的过错码却纷歧样,用户不能不从头对于接API、修改过错处置惩罚代码。这种工程问题很是棘手,是步伐员们遍及反感的贫苦事。

是以,于评测及数据展示功效以外,咱们分外开发了供给商路由功效。咱们会提供同一的接口,好比你要利用DeepSeek模子,只需接入咱们这一个接口,就能直接挪用暗地里20多家供给商的资源,年夜幅节省适配成本。不管是开源模子还有是闭源模子,咱们城市周全接入用户基本能找到所有需要的模子;假如有模子还没有上架,用户随时提出需求,咱们会第一时间完成上架。

这个功效还有具有高可用性:当某一家供给商呈现忙碌、宕机或者办事报错时,体系会主动将哀求切换至其他供给商。同时,咱们会提供高性价比保举办事,用户可以按照自身需求选择“成本优先”或者“机能优先”,体系会筛选出切合前提的供给商。并且所有数据彻底透明,机能体现、Token耗损以和孕育发生的用度,城市于后台及时反馈。按照过往数据,这个功效至多能帮忙用户降低50%的成本,同时延迟及吞吐指标也有较着优化。

本年清华年夜学结合中国软件评测中央发布“2025年夜模子办事机能排行榜”,将咱们于市道上找到的20多家供给商的热点模子办事全数比了一遍,由第三方机构发榜,咱们提供工程实现、数据评测与展示平台。

接待各人存眷咱们的公家号或者插手用户交流群,也能够看看咱们的官网。每一次新模子发布,咱们的公家号上会于最快时间发布新模子的解读,以和有哪些供给商上架、机能环境,咱们城市发布排行榜,帮忙用户举行选型。

谢谢各人,也谢谢各人存眷清程极智。

雷峰网原创文章,未经授权禁止转载。详情见转载须知。

-BBIN·宝盈


地址:长春净月高新技术产业开发区百合街1009号

版权所有:BBIN·宝盈信息技术股份有限公司

电话:0431-85861717/ 4001182299