
5月29日,基础年夜模子创业公司阶跃星斗(StepFun)发布并开源 Step 3.7 Flash 模子。这是一款专为出产级 Agent 打造的Flash 模子,官方称其致力在于速率、成本、靠得住履行及繁杂使命处置惩罚能力之间实现更好均衡。 当前,Agent 正于从演示阶段快速走向真正的企业出产情况,这对于基础模子竞争提出了全新要求:不只是寻求峰值智能,而要寻求可以或许于运用场景实现范围化的高效智能。这象征着模子不仅要回覆问题,更要理解繁杂输入、自动搜刮信息、不变挪用东西,并于多轮长程使命中连结履行一致性。 按照阶跃星斗官方公家号先容,Step 3.7 Flash 采用稀少 MoE 架构,总参数 196B+1.8B(ViT)、激活参数仅 11B ,最高天生速率可达 400 Tokens/s,尤其合适高频、多轮的 Agent 运用场景,能显著晋升使命完成效率。值患上存眷的是,模子针对于出产级 Agent 场景需求优化了要害能力:原生多模态理解与履行、联网与视觉搜刮加强、高靠得住东西挪用与编排和 Agent 生态兼容优化。 Step 3.7 Flash 可以或许直接处置惩罚 UI 界面、图表、文档、图片以和各种运用界面,并将繁杂视觉信息转化为布局化成果及可履行使命,并于信息不确按时自动倡议搜刮举行交织验证;而于出产级 Agent 最焦点的东西挪用靠得住性上,Step 3.7 Flash 举行了针对于性优化,可于长程多轮事情流中不变挪用 API、阅读器、终端、Office 东西等,显著降低跑偏及履行掉败危害。 图为Step 3.7 基准测试成果 基准测试显示,Step 3.7 Flash 于 SimpleVQA (Search)、V* (Python) 等繁杂视觉使命 Benchmark 上,揭示出媲美更年夜范围旗舰模子的能力体现。而于考查多东西协同的 Toolathlon 上,这款模子的分值到达了 49.5%,并于考查真实情况下一样平常自立使命履行的 ClawEval-1.1 上到达了 67.1%;于横跨 44 种职业的 GDPval 上到达了 45.8%;于 τ²-bench Telecom 的低、中、高三档推理难度下经由过程率均到达 98% 以上。这象征着,它能于多轮 Agent 事情流中不变挪用 API、阅读器、终端、Office 及外部体系,连结使命轨迹一致,降低跑偏及履行掉败。 阶跃还有对于主流 Agent 框架及东西挪用和谈举行了兼容优化,可不变接入Claude Code、OpenClaw、Hermes Agent 等主流 Coding 与 Agent 东西,并撑持云端部署与当地部署,降低开发者接入及事情流编排成本。 业内子士认为,跟着各行各业加快推进 Agent 落地,Step 3.7 Flash 的设计理念也反应出 Flash 类模子的脚色改变:从纯真的轻量替换品,慢慢成为支撑出产级 Agent 范围化落地的基础举措措施。本年2月,阶跃开源了该系列上一个版本模子 Step 3.5 Flash,一样主打极速、高效地完成 Agent 场景使命,上线一个月即登顶 OpenRouter 平台 OpenClaw 挪用量月榜全世界第一。 阶跃暗示,后续将缭绕 Step 3.7 Flash 推出生态共建规划及生态伙伴限时体验勾当,与开发者一路摸索 Agent 效率的评估方式、工程实践及出产化路径。