BBIN·宝盈-四道题评测 Qwen3.7

2026-06-06 15:10:39

雷峰网讯 5 月 20 日，阿里云峰会上，通义千问团队正式发布 Qwen3.7-Max。

这已经经是三个月内的第三个旗舰版本了。3 月 20 日 Qwen3.5-Max-Preview 问世，4 月 20 日的 Qwen3.6-Max-Preview，再到此次的 Qwen3.7-Max 正式版，每一 30 天一款旗舰模子的迭代速率，放眼全世界年夜模子厂商，险些无人能出其右。

榜单数据证实了千问近来的前线更新不是注水之作。于 Artificial Analysis Intelligence Index v4.0 上，Qwen3.7-Max 以 56.6 分位列全世界第 5。于它以前的别离是GPT-5.5（60.2）、Claude Opus 4.7（57.3）、Gemini 3.1 Pro Preview（57.2）及 GPT-5.4（56.8）。而值患上存眷的是，一个月前的 Qwen3.6 Max Preview 于这份测试中的体现还有只有 51.8 分。30 天涨 4.8 分，于这个分数段，远远不是靠微调就能做到的工作。

四道题评测 Qwen3.7-Max：从空间推理到 3D 建模，它离 Agent 更近了吗？

此外按照官方放出的跑分成果，Qwen3.7-Max 于数项权势巨子评测中也位居前列。

▪编程智能体：Qwen3.7-Max 于 Terminal Bench 2.0-Terminus 患上分 69.7，跨越了 DeepSeek-v4-pro-Max、Claude-Opus4.6 等一众顶尖模子；

▪通用智能体：于 MCP-Atlas、MCP-Mark、Skillbench 等实际能力测试中力压 GLM5.一、Kimi-K2.6 等国产模子，较前代晋升显著，而且于 Kernel Bench L3上展示了强盛的 GPU 内核优化能力；

▪推理能力：于 GPQA Diamond、HLE、HMMT 2026 Feb、IMOAnswerBench 等推理焦点测评中均逾越了 Claude-Opus4.6 和所有国产模子，拿下国产模子新 SOTA 的宝座；

▪通用能力与多语言：于指令遵照 IFBench 评测中患上分 79.1 分，冲破新高，于多语言理解及翻译的WMT24++、MAXIFE评测中领先；

于这份长长的成就单中，有两个能力维度上的体现非分特别亮眼。

一是推理。Qwen3.7-Max 于 GPQA Diamond 上拿下了 92.4 的分数，作为对于比的是 Claude Opus 4.6 的 91.3。对于这两款顶尖模子而言，三分之差已经经不是挤牙膏式的机能晋升。更亮眼的是，Qwen3.7-Max 于数学推理（Apex Math Reasoning）上领先 Opus 近三成，这是国产模子初次于“硬推理”上跻身全世界第一梯队。

二是编程 Agent 能力。于 SWE-bench 系列测试中，Qwen3.7-Max 跨越 Claude Opus 4.6-Max 及 Kimi-K2.6，Terminal Bench 2.0 较前代晋升 6.9pp，这暗地里是从写代码，到理解 issue、定位 bug、编写修复 patch，从编程助手到编程智能体的要害超过。

看懂了这份成就单，就会大白这届阿里云峰会描绘了怎样弘大的一副愿景。还有记患上峰会上阿谁 35 小时的 Demo 吗？Qwen3.7-Max 于平头哥真武 M890 芯片，一个练习时从未见过的国产硬件平台上，自立完成为了推理内核优化，速率晋升 10 倍。

这个 Demo 的战略意义远超技能自己，它指向一个更年夜的命题。迁徙成本为模子公司带来的工程阻滞及精度危害，是 CUDA 生态最深的护城河之一。但若 Qwen3.7-Max 已经经摸到了自立针对于国产芯片编写优化软件栈的机能阈值，那末前者的生态壁垒便险些不复存于。

焦点成就单：超强的推理及编程能力

“全世界第5、国产第一”的成就已经经充足夺目，这一跃升暗地里是 Qwen3.7-Max 于推理、数学、代码、Agent 履行几条要害能力线上的同时抬升。换言之，Qwen3.7-Max 今天的排名不是靠着于某个单项上把分数刷高，而是于年夜模子从 Chatbot 走向 Agent 的焦点赛道上，补齐了最难的几块拼图。

以前已经经提到，Qwen3.7-Max 是国产模子第一次跻身“硬推理”的前列。

GPQA Diamond 是当前权衡年夜模子高难科学推理能力的主要基准之一，涵盖物理、化学、生物等研究生级别问题。比拟平凡常识问答，它更磨练模子的多步逻辑推演能力、跨学科常识整合能力、对于滋扰项的辨认能力、于不确定前提下连结推理一致性的能力。

能于这一项目上拿到 92.4 分，象征着 Qwen3.7-Max 不只是依赖中文能力、运用场景或者工程调优得到上风，而是于全世界最难的一类推理测试中，最先及最强闭源模子正面竞争。

于更难的 Humanity’s Last Exam 上，Qwen3.7-Max 一样没有失队。

这个榜单考查的是“推理 + 常识”的综合硬度，标题问题笼罩规模更广、常识颗粒度更细，也更难经由过程单一能力刷分。图中，Qwen3.7-Max 拿到 38%，位列全世界头部阵营，排于它前面的选手包括 Gemini 3.1 Pro、GPT-5.五、GPT-5.四、Gemini 3.5 Flash、Claude Opus 4.7 等少数几款旗舰模子。

这一样可以视为 Qwen3.7-Max 综合能力周全走向成熟的例证。外貌的测试单项之下，仍旧能划分出诸多原子能力，对于在 HLE 而言它们多是长链推理、跨学科常识、多步阐发、隐含前提理解及高噪声问题。HLE 高分成就的含金量也于在此，诸多原子能力的联合考查，完全堵死了 RL 刷题、专项优化及模板化 COT 的“刷分三板斧”。

全世界旗舰的竞争，于这类维度的测试上才有说服力。

推理能力决议模子能不克不及“想大白”，编程 Agent 能力则决议模子能不克不及“把活干完”。于这一点上，Qwen3.7-Max 也没有让人掉望。

编程 Agent 的差距，起首表现于 Terminal Bench 2.0-Terminus。这项测试考查的不是“写一个函数”类型的单项使命，而是于终端里完成包括查文件、跑号令、读报错、改代码、再验证的持续操作。Qwen3.7-Max 拿到69.7 分，已经经可以或许申明它及真实开发者事情方式之间更近一步的间隔。

而纵然于竞争最激烈的 SWE-Verified 上，Qwen3.7-Max 也拿到了 80.4，与 Opus-4.6 Max 的 80.八、DS-V4-Pro Max 的 80.6 险些持平。前者于 Claude Code 及 Codex 用户圈中有着出名的不变口碑，后者更是公认的性价比之王。BenchMark 上如许的名次格式，象征着 Qwen3.7-Max 已经经于软件工程 Agent 第一梯队中站住了脚根。

更细分的代码使命里，Qwen3.7-Max 于 SciCode 上拿到 53.5，跨越 K2.6 Thinking 及 Opus-4.6 Max。这申明它于科学计较代码、繁杂逻辑实现上也具有较强不变性。

前端及可视化使命一样值患上留意。QwenSVG 到达 1608，为该组最高；QwenWebDev 为 1568，处在第一梯队。

这些指标配合拼出了一副完备的 Qwen3.7-Max 能力求景。比起仅仅补全代码，它越发傲人的是最先具有了完备的工程履行能力，这象征着理解需求、定位 bug、修改代码、运行测试、提交 patch，这些已往属在工程师的持续动作，正于被模子慢慢接受。

这也注释了，它为何合适被放进 Claude Code 如许的 Agent CLI 中实测。真实的编程智能体，看的不是单次天生有多美丽，而是可否于一个真实项目里，把问题一起解决到末了。那末Qwen3.7-Max 程度到底怎样，咱们为它设计了一些使命。

逻辑推理实测：玻璃过门与数学公式完形

咱们于 Claude Code 情况下接入 Qwen3.7-Max，实测也缭绕着推理及 Coding 能力睁开。

起首是一个很经典的玻璃过门问题。

标题问题：

代码块

6米长4.5宽的玻璃可否经由过程高4米宽3米的门？请给出推理历程

Qwen3.7-Max 的回覆以下：

面临这道经典空间推理题，这个问题的陷阱于在，不克不及简朴比力玻璃边长及门的宽高。Qwen3.7-Max 给出的结论是“可以”，并很快捉住要害：门洞对于角线为 5 米，玻璃的 4.5 米宽度可以沿门洞对于角线标的目的放置，而 6 米长度则沿门的纵深标的目的慢慢穿过。

更主要的是，它没有逗留于“4.5 米小在 5 米”的大略判定，而是继承做了投影验证。模子将 4.5 米线段居中放于门洞对于角线标的目的上，计较出其程度标的目的半投影为 1.35 米，小在门宽一半的 1.5 米；竖直标的目的半投影为 1.8 米，小在门高一半的 2 米。也就是说，这块玻璃于门平面上的截面可以或许完备落入门框内，且上下摆布都有余量。

Qwen3.7-Max 没有被“6 米及 4.5 米都年夜在门宽高”的直觉误导，把问题转化成三维穿过路径及二维截面约束。它先找到要害几何干系，再做界限验证，末了注释 6 米长度为什么不组成限定。对于一款推理模子来讲，这远比纯真答对于更主要。它申明模子具有把实际问题布局化、拆解约束并完成可验证推理的能力。

别的一项测试是数学公式完形，这种标题问题也被广泛用在磨练模子的推理能力。

标题问题：

代码块

于数字三、七、5之间添加适量的数学符号（不转变数字挨次），使患上等式 `3 7 5 = 8` 建立。

Qwen3.7-Max 给出的谜底是 3! + 7 - 5 = 8。这个解法的要害于在引入阶乘符号，将 3 转换为 6，再经由过程简朴加减获得成果：6 + 7 - 5 = 8。

主要的是历程，Qwen3.7-Max 其实不是直接猜出谜底，而是先测验考试解除只利用加减乘除了的环境。它列举了三、七、5 之间两处符号的基础组合，并进一步思量括号变体，判定纯四则运算没法获得 8。随后，模子才转向更高阶的数学符号，找到阶乘这个冲破口。

Qwen3.7-Max 的回覆显示，它可以或许先于通例解空间中验证不成行，再扩大到很是规符号空间。这类思索方式，很是靠近人类。而事实上，这种能力对于在 Agent 一样主要。当通例路径走欠亨时，模子可否自动扩展搜刮规模，往往决议使命能不克不及继承推进。

Coding 实测：从数据可视化到 3D 建模

Coding 能力测试的部门，咱们选择让 Qwen3.7-Max 完成一项数据阐发可视化开发。

标题问题：

代码块

1 请从零开发一个当地数据可视化网页东西，用户上传 Excel 文件后，主动读取数据并展示表格预览。

2 东西需要主动辨认数值列，天生柱状图、折线图及饼图，并撑持选择差别字段举行可视化。

3 页面要简便雅观，平凡用户打开阅读器便可利用，不依靠后端。

4 请给出完备文件布局、全数代码及运行要领。

5 末了申明这个东西测试了 Agent 的哪些能力。

于这道题中，咱们给 Qwen3.7-Max 的使命是从零开发一个当地数据可视化网页东西。要求其实不只是写一个页面，而是要完成 Excel 上传、数据解析、表格预览、数值列辨认、图表天生、字段切换、无后端运行等一整套功效。Qwen3.7-Max 终极天生了一个四文件项目：index.html、style.css、app.js 及 README.md，并明确给出运行方式，既可以直接双击 index.html，也能够经由过程python3 -m http.server 8080于当地启动。

从天生成果看，它选择了比力合理的前端技能线路，用 SheetJS 解析 Excel，用 Chart.js 衬着图表，经由过程 CDN 引入第三方库，防止后端依靠。代码布局也比力完备，index.html 卖力页面骨架，style.css 卖力相应式结构及视觉样式，app.js 负担文件读取、数据转换、状况治理及图表配置。

很像是专业开发者的一处体现是，模子还有增补了 README，以申明功效清单及利用要领，这让总体成果更像一个可交付的小型前端项目，而不是一段伶仃的 demo 代码。

打开网页，上传区设计简便，撑持拖拽或者点击选择 .xlsx、.xls、.csv 文件。上传 Excel 后，东西可以读取数据并天生预览表格，辨认出行数、列数及数值字段；于测试文件中，它展示了 13196 行、11 列数据，并辨认出 9 个数值列。页面下方还有能按照选择的 X 轴及 Y 轴字段天生可视化图表，撑持柱状图、折线图及饼图切换。

这个测试真正考查的是 Agent 的工程闭环能力。Qwen3.7-Max 需要先拆解需求，再完成库选型、文件构造、前端交互、数据处置惩罚、图表衬着及运行申明。这些需求让使命更靠近真实开发流程，写对于代码是最基本的要求，模子还有要包管多个文件之间能协同事情，终极让平凡用户于阅读器中直接利用。是以 Qwen3.7-Max 于这个使命中，本色上已经经体现出了必然的端到端产物开发能力。

一样是可视化，下面的 Coding 使命从数据东西酿成了 3D 户型图。

标题问题：

代码块

以北京为配景，为我创立一个120平方的3D户型图，要求有3个卧室、1个厨房、2个洗手间、不少在1个阳台，并标注每一个房间的面积。

利用HTML、CSS、JS以和Three.JS。只给我一个可以运行并查看这个户型图的HTML文件。

咱们要求 Qwen3.7-Max 天生一个北京配景下的 120 平方三居室户型图，而且只能交付一个可运行的 HTML 文件。模子终极天生了 floorplan.html，共 691 行代码，内置 HTML、CSS、JS 及 Three.js 逻辑，双击便可于阅读器中打开，不需要分外工程配置。

从交付成果可以看到，页面出现了一个完备的 3D 户型模子。房间结构包罗 3 个卧室、1 个厨房、2 个洗手间、南北阳台、客堂/餐厅、走廊、储物间及玄关，基本元素满意标题问题要求。此外每一个区域都有自力颜色区别，并于左边图例中对于应展示房间名称及面积，模子中悬浮标签也同步标注了面积，没有呈现房间名称、面积与图例纷歧致的问题。

使人欣喜的是，Qwen3.7-Max 没有止步在天生一个静态模子，而是插手了 OrbitControls，撑持鼠标拖拽扭转及滚轮缩放。用户可以从俯视图切换到透视视图，也能够缭绕户型 360 度查看墙体、房间漫衍及家具摆放，基本不存于单一视角遮挡信息的问题。

更细节的是，模子还有提供了“显示/隐蔽屋顶”及“显示/隐蔽标注”按钮。隐蔽屋顶后，可以直接不雅察室内空间；打开标注后，房间面积信息会以浮动标签情势固定于对于应房间上方。纵然于扭转视角后，标签仍能追随场景显示，防止了 3D 模子常见的“看患上见房间、对于不上信息”的问题。

从 Agent 能力看，这道题的繁杂水平已经经远远跨越平凡的前端页面。它要求模子同时完成空间结构、三维建模、交互节制、中文标注、视觉气势派头及单文件封装。而 Qwen3.7-Max 的体现申明，把抽象需求转换成可交互、可验证的 3D 产物原型，也已经经进入了它的能力规模。

纵不雅四组测试，会发明 Qwen3.7-Max 的一个凸起特色于在，它并无把推理及编程当做两件事来做。推理题中，它展示了对于约束前提的辨认及路径搜刮能力；编程题中，这类能力进一步转化成为了需求拆解及工程实现。也就是说，推理能力为编程能力提供了“标的目的感”，编程能力则让推理成果酿成了可体验、可运行、可验证的产物形态。

这恰是当前年夜模子竞争中愈来愈被注重的能力组合。下一阶段的模子不会只拼参数范围或者 benchmark 分数，而是繁杂使命中不变性及闭环能力的竞争。特别于企业场景中，用户其实不体贴模子是否能讲出美丽的推理历程，而是体贴它能不克不及把需求做成成果，能不克不及削减人工重复沟通，能不克不及于呈现界限前提时继承推进。

这也是当前年夜模子从 Chatbot 走向 Agent 时，最要害的一道分水岭。

旗舰模子，走下游水线

固然，这今朝仍旧只是对于将来技能脉络的瞻望。四道测试题只能申明 Qwen3.7-Max 于典型推理及原型开发使命中体现出了较强能力，其实不等在它已经经彻底具有出产级 Agent 的所有前提。真实营业情况会越发繁杂，包括长上下文中的状况连结、多轮修改中的一致性、代码安全、机能优化、依靠冲突、团队工程规范等，都需要更永劫间及更严苛场景来验证。

可是一样把 Qwen3.7-Max 放进更宏不雅的技能脉络，没法轻忽的事其实在，这已经经是阿里于三个月内发布的第三款旗舰模子。也许比起 Qwen3.7-Max 现在做到了甚么，更值患上存眷的问题是，阿里凭甚么能以云云频率更新旗舰模子，以和这类迭代节拍对于在整个年夜模子行业又象征着甚么。

代际冲破持久以来都是年夜模子行业的主流叙事，尤其是从 GPT-3 到 GPT-4 的跃迁以后，顶尖模子的每一一次更新，都承载了开启下一代模子范式革命的期待。也是以，模子发布出现出周期长、练习成本高的特性。可以说，这一期间的模子是更靠近科研结果的试验室产品。

于这一配景下，千问的月更节拍就显患上耐人寻味。三个月内接连问世的 Qwen3.五、3.六、3.7，是否象征着阿里正于将年夜模子研发从十年磨一剑的科研项目，酿成以月为单元迭代的流水线工程？

假如这一转向是真实发生的，其意义就远不止在 BenchMark 上的几分晋升。高频迭代靠的不仅是算力，假如没有成熟的基础举措措施支撑，不成能做到于 30 天更新一个旗舰版本的环境下，仍旧连结模子机能的连续晋升，而且有年夜范围的可用 API。这暗地里一定有一个笼罩数据洗濯、练习调理、主动评测、后练习、推理部署等全套工程能力，可以或许连续练习、微调、上线旗舰模子的工业化出产系统。

这比 Qwen3.7-Max 自己更值患上存眷。

跟着数据处置惩罚、强化进修、合成数据及 MoE 架构逐渐成熟，模子能力的晋升最先从试验室里的偶发冲破，转向持续优化的成果。而当年夜模子行业进入这一工程时代，更不变的练习、更快的迭代及更低的成本成为新的竞争核心，此时高频的版本更新就是最有力的市场旌旗灯号。

从 Qwen3.5 到 3.7，千问出现的一种多是，将来阿里于模子层的竞争力也许其实不来自在某一代全世界最强模子，而是能以最低的成本、最快的速率，不变产出一流模子。留给千问的问题是，这类能力是可连续的吗？

雷峰网(公家号：雷峰网)文章

雷峰网原创文章，未经授权禁止转载。详情见转载须知。

-BBIN·宝盈

产品

服务

关于BBIN·宝盈

信息公开

产品 +

服务 +

关于BBIN·宝盈 +

信息公开 +

投资者关系

加入BBIN·宝盈

客户留言