产品 +

iEnter|智慧企业 +

企业资源计划管理系统

智钉

iManu|智能制造 +

制造执行系统

物流执行系统

高级计划及排程

iSupply|智慧供应链 +

运输管理系统

仓储管理系统

供应商关系管理系统

EP|智慧生态营销 +

经销商管理系统

全面营销管理系统

客户关系管理系统

Connect|智能网联 +

智能网联云平台

新能源汽车监控平台

商用车企业监控平台

电检系统

行驶记录仪

车载T-BOX

汽车故障诊断仪

国六OBD产品

后装GPS产品

DataValue|数据价值赋能 +

智慧质量

线索运营

智慧广告

Platform|云原生PaaS平台 +

云原生PaaS平台

容器引擎(QKP)

AI智能服务平台

API网关平台

低代码平台-QLCP

元宇宙技术探索平台

数据中台

智能运维平台

服务 +

咨询 +

车路协同解决方案

IT咨询

云原生技术架构规划与咨询服务

评测 +

网络安全等级保护测评

实施 +

电子电气检测服务

网联产品组装制造

运维 +

桌面及外围设备运维服务

云服务(IDC)

销贷服务

乘用车车联网运营服务

商用车车联网运营服务

客户联络中心运营服务

数据价值运营服务

K8s运维

关于BBIN·宝盈 +

企业简介 +

企业简介

BBIN·宝盈行业地位 +

BBIN·宝盈企业荣誉

BBIN·宝盈行业地位

BBIN·宝盈资质认证

社会责任 +
企业文化 +
投资者关系 +
BBIN·宝盈麾下企业 +
加入BBIN·宝盈 +

BBIN·宝盈业务发展规划

BBIN·宝盈福利待遇

人才招聘

信息公开 +

企业基本信息 +

企业概况

经营范围

市场主体登记基本信息

组织机构

成员单位

资质荣誉

企业重大事项 +

股权信息

产权信息

研发成果

企业经营管理 +

财务与经营状况

品牌与产品

安全环保 +

安全信息

招标招募 +

招标信息

人力资源 +

招聘信息

社会责任 +
企业公告 +

上市公司

公告信息

投资者关系

加入BBIN·宝盈

客户留言

BBIN·宝盈-全球首发
2026-06-07 06:08:12

  

于小说浏览器读本章

去浏览

于小说浏览器中沉浸浏览

全球首发 | SLAI基于国产算力集群完成DeepSeek-V4-Pro全参数后训练

现今人工智能时代,基在国产算力的年夜模子高效练习及推理是国度成长战略的年夜问题。DeepSeek-V4-Pro于效率及机能方面是业界年夜模子的卓异代表。DeepSeek-V4-Pro已经经乐成完成于国产算力上推理部署,但练习还有未彻底实现国产算力化。

于此配景下,深圳河套学院Al练习平台项目团队,结合哈尔滨工业年夜学(深圳)、深圳市年夜数据研究院、华为GTS(全世界技能办事)、计较产物线、2012试验室,协同深智城AI算力平台,面向国产算力年夜模子练习开展结合攻关。今朝,仅用1个月时间,项目已经基在昇腾910C国产算力集群实现DeepSeek-V4-Pro全参数续练习/SFT不变运行,完发展稳练习1500+步,练习MFU超30%,要害练习算子效率晋升14%。

据公然资料检索,本事情是公然可查规模内,业界首个由第三方机构基在国产算力集群完成的DeepSeek-V4-Pro全参数后练习工程实践,标记着国产AI基础举措措施正于从推理部署及轻量化微调迈向超年夜模子全参数后练习。

01

为何万亿级模子的“全参数后练习”是一块硬骨头?

DeepSeek-V4-Pro,一款1.6万亿参数级MoE开源旗舰模子,采用了CSA+HCA混淆稀少留意力、mHC毗连等新机制。比拟在上一代DeepSeek-V3/R1,它对于国产练习框架提出了全方位的“极限挑战”。

稀少MoE布局:专家路由带来的跨节点通讯,是传统密集模子的数十倍;

混淆稀少留意力:留意力模式的动态切换,对于算子效率及显存治理极其敏感;

万亿参数级状况:权重、梯度、激活、优化器状况——仅单副本就需数TB显存。

02

焦点进展:千卡集群上,1500+步不变奔跑

颠末结合攻关,项目已经基在千卡级昇腾 910C 国产算力集群,乐成实现DeepSeek-V4-Pro于国产算力集群上的全参数后练习不变运行。

长稳SFT练习:完成1500+步迭代,skipped iterations = 0,NaN iterations = 0;

练习效率:MFU(模子算力使用率)到达约30%,要害练习算子计较效率较初始版本晋升约14%;

终极体现:于昇腾超节点上,MFU不变于34.9%。

与此同时,DeepSeek-V4-Flash的全参数续练习与SFT链路也已经同步买通。

全球首发 | SLAI基于国产算力集群完成DeepSeek-V4-Pro全参数后训练

DeepSeek-V4-Pro@昇腾超节点练习,MFU终极不变于34.9%

一组数据足以申明差距:于划一参数目下,业界公然的国产算力全参数后练习案例险些为零。而咱们将一个1.6T MoE模子,于千卡集群上以27秒/步的不变节拍,持续奔跑1500余步——这不是试验室的“单次演示”,而是可复现、可工程化交付的不变能力。

更主要的是,该平台已经快速验证了垂直范畴价值。团队缭绕工业级主动化运筹建模场景,于数周内完成为了从数据出产、样本筛选、练习链路买通到效果评测的闭环验证。这象征着:国产算力平台不仅可以或许“训年夜模子”,更能“训好行业模子”——以短周期、低成本构建面向专业使命的加强能力。

03

三年夜要害技能冲破:从“能跑”到“能训、训稳、训优”

本次攻关面向DeepSeek-V4-Pro全参数后练习,而非LoRA等极少量参数微调。结合团队于如下三个层面实现了体系性冲破:

1. 漫衍式承载:1.6T参数的“显存拼图”

洞察:万亿参数不克不及只靠显存年夜,更要靠“放患上巧”。

项目乐成构建了权重、梯度、激活、优化器状况的漫衍式承载方案,使患上数据并行、张量并行、流水并行与专家并行四者协同事情。每一一张卡上,该放甚么、怎么放、怎样动态调理——这套“显存拼图”是不变练习的地基。

2. 稀少与通讯:让专家不“打骂”,让留意力不“堵车”

洞察:MoE模子练习最怕“专家负载掉衡”及“跨节点通讯风暴”。

团队针对于混淆稀少留意力、MoE路由、归一化、矩阵计较等要害练习算子举行了深度适配与优化,算子效率较初始版本晋升14%。同时成立了专家负载的及时监控与平衡机制,防止部门专家过载而部门专家闲置。

3. 长稳监控:当练习跑上几天几夜,谁来守夜?

洞察:全参数后练习最可怕的不是慢,而是“跑着跑着就崩了”。

结合团队搭建了一套完备的监控系统:Loss曲线、梯度范数、专家负载、显存占用、异样主动恢复……所有指标都可视、可告警、可自愈。于1500+步的练习中,未呈现一次Loss掉控或者NaN值——这是“长稳能力”最直接的证实。

04

实战验证:数学建模能力于后练习中显著跃升

为了查验DeepSeek-V4于昇腾集群长进行全参数后练习的真实价值,项目设计了一项“硬核”试验:加强年夜模子的数学建模能力。

团队搭建了一条SFT建模数据出产workflow,产出3000条高质量数学建模使命SFT样本,笼罩4类方针使命及3种问题形态。随后,对于DeepSeek-V4举行后练习。

全球首发 | SLAI基于国产算力集群完成DeepSeek-V4-Pro全参数后训练

优化建模SFT数据飞轮流程

练习曲线给出了清楚的旌旗灯号:

LM loss从高位快速降落,终极收敛至0.2056;

MTP-1 loss收敛至0.2538;

梯度范数平稳降落,未呈现震荡或者发散;

单步耗时不变于27秒摆布。

全球首发 | SLAI基于国产算力集群完成DeepSeek-V4-Pro全参数后训练

3K SFT练习历程概览

更直不雅的成果来自Benchmark对于比:

全球首发 | SLAI基于国产算力集群完成DeepSeek-V4-Pro全参数后训练

四项要害指标均显著逾越原模子,此中ORGEval WL晋升跨越5个百分点。这象征着:于国产算力上完成的全参数后练习,不仅能“跑稳”,更能“训强”——模子于繁杂推理使命上的能力获得了真实增益。

05

以战育才:于真实攻关中造就“能训年夜模子”的人

本次攻关的另外一个怪异价值,于在它是一次人材造就模式的范式试验。

深圳河套学院将万亿级模子练习攻关作为“练兵场”,把学生直接嵌入国产算力真实练习场景。截至今朝,项目已经造就学生42名,形成为了由青年西席引导、博士生焦点攻坚、工程团队支撑的协同造就机制。

于这一历程中,同窗们不只是介入项目进展,更是负担详细使命的“战斗员”:有的卖力练习数据组织与样素质量阐发,有的卖力漫衍式并行计谋验证,有的跟进长稳监控与异样恢复,有的撰写技能陈诉与工程文档。

一次练习启动、一次报错定位、一次参数调解、一次成果复盘——于这些真实而噜苏的工程实践中,学生们从“会挪用年夜模子”真正走向了“理解并介入练习年夜模子”。

能力晋升表现于三个方面:

成立了对于国产算力年夜模子练习全链路的体系性熟悉;

把握了从范畴数据到模子能力加强的全历程实操能力;

于真实项目中形成为了问题拆解、试验设计、练习复盘与团队协作的工程素养。

后续,这些真实使命将沉淀为课程案例、实训资源及学生科研项目,将连续支撑深圳河套学院造就“懂模子、懂体系、能工程、敢攻关”的高程度复合型AI人材。

全球首发 | SLAI基于国产算力集群完成DeepSeek-V4-Pro全参数后训练全球首发 | SLAI基于国产算力集群完成DeepSeek-V4-Pro全参数后训练全球首发 | SLAI基于国产算力集群完成DeepSeek-V4-Pro全参数后训练全球首发 | SLAI基于国产算力集群完成DeepSeek-V4-Pro全参数后训练全球首发 | SLAI基于国产算力集群完成DeepSeek-V4-Pro全参数后训练

项目团队开展技能复盘与学生实战造就

06

将来瞻望:从“全参数后练习”走向“Agentic RL + 超长上下文”

下一阶段,深圳河套学院将继承结合哈尔滨工业年夜学(深圳)、深圳市年夜数据研究院、华为GTS(全世界技能办事)、计较产物线、2012试验室、深智城等互助伙伴,于现有全参数续练习/SFT链路基础上,重点推进三项使命:

1. 练习效率再冲破

连续优化练习框架与要害算子,进一步晋升练习效率(MFU),降低万亿模子练习的算力成本。

2. 超长上下文练习

支撑512K至1M超长上下文练习,晋升繁杂专业使命中的长文档理解与长链路推理能力;

3. 强化进修后练习闭环

冲破DeepSeek-V4-Pro强化进修后练习技能,缭绕数学建模优化、代码Agent、长上下文推理等使命,构建rollout天生 → 东西履行 → reward/verifier → 计谋更新 → 评测反馈的完备Agentic RL链路。

同时,项目将坚定推进技能开源与人材造就沉淀:

分阶段开放练习配置、评测剧本、合成数据、技能陈诉和相干模子与框架能力;

将真实练习使命、数据组织要领、妨碍排查案例及评测流程转化为课程案例与实训使命;

连续完美“国产算力支撑、真实使命牵引、学生团队实战、工程能力沉淀”的造就路径。

于此基础上,项目还有将依托这一练习场,开展新一代通用人工智能的基础理论、新范式及新架构的研究——包括符号、毗连与举动主义有机交融,从单一智能体到群体智能再到人机交融的建模摸索。

结语

DeepSeek-V4-Pro于国产算力上的全参数后练习,不是一次伶仃的工程冲破。

它验证了一条门路:国产开源旗舰模子 + 国产AI算力 + 高程度练习团队 + 国产厂商技能撑持——这个四角闭环,是可连续的、可复制的、可托任的。

它发出了一声宣告:国产AI基础举措措施,从今天起,再也不只是“能推理”,而是真正“能练习、能训稳、能训优”。

更主要的是,它点燃了一个但愿:于下一代通用人工智能的征途上,中国的高校、科研机谈判年青学子,可以站于本身的算力泥土上,开展人工智能的研究,亲手练习属在本身的万亿模子。

这不是尽头,而是发令枪。

?项目后续将慢慢开源技能陈诉、练习配置与评测剧本,敬请存眷深圳河套学院官方发布。

-BBIN·宝盈


地址:长春净月高新技术产业开发区百合街1009号

版权所有:BBIN·宝盈信息技术股份有限公司

电话:0431-85861717/ 4001182299