BBIN·宝盈-排名第九、国内第二，DeepSeek V4 凭什么让人又爱又恨？

2026-06-06 16:10:30

雷峰网讯 DeepSeek V3 有多震撼，V4 给人的落差就有多年夜。

4 月 24 号那天，我打开微信，看到群里一条条的“就这”、“还有行”，突然想起 DeepSeek V3 “炸群”的那天。其时有人说 OpenAI 的棺材板要压不住了，还有有人爽性把 V3 的跑分截图设成为了手机壁纸。

V4 呢？

Vals AI 说它是全世界第九，中国海内第二。有开发者直接向媒体暗示略感掉望，DeepSeek 本身也认可，Agentic Coding 比 Opus 4.6 思索模式还有有差距，世界常识也不如 Gemini。

但当我把它塞进一个 workflow 里跑上一周，测了一堆只有中国开发者才懂的场景以后，我发明 V4 也许没法复刻 V3 带来的震撼，但它仍旧是 DeepSeek 最主要的作品之一。

至在缘故原由，我想先谈谈掉望论，到底于掉望甚么。

“榜单第九”，到底于掉望甚么

DeepSeek V4 平均正确率 63.87％的成就，出自 Vals AI 的测评。这个测评集笼罩金融、法令、编程、多语言等维度，V4 全世界排名第九，海内仅次在 Kimi K2.6。排于它前面的，有 Claude Opus 4.六、Gemini 3.1 Pro、GPT-5.4，全是闭源模子。

数据自己没有问题，但解读方式很值患上挖一挖。假如 Vals AI 用美国状师资历测验、英国金交融规题、英文编程竞赛来排名，那跟我一个写微信小步伐、读李商隐、写八项划定进修心患上的中国用户，有甚么瓜葛？

更要害的是，Vals AI 意外中文古诗词理解、中法律王法公法律法例援用、中文收集梗的理解，也意外公函写作程度或者者把“新质出产力”翻译成英文的时辰会不会胡编。而这些，才是中国用户碰面对于的场景。

以是咱们从头设计了一套评测方案。包括古诗词、法令、收集梗、公函、翻译五年夜中国特点场景，外加完备的开发事情流实测，从头权衡一下 V4 的体现。

于古诗词及法令维度，咱们约请了 Opus 4.7 作为裁判模子评分，事情流维度从可运行性、可读性、可维护性三个工程指标评估，智能体维度则考查使命分化、东西利用、自我纠错、使命完成度、状况治理五项能力。

成果，很耐人寻味。

四个“只有中国人懂”的测试

V4 究竟是真懂中文语境，还有是只会违尺度谜底？咱们先从最“不实用”的一项测起，中国古诗词深层理解。

实在让年夜模子读古诗，有点像让老外听相声，懂字面意思还有不敷，重点是大白意在言外的包袱。V4 于这件事上的体现，直接表现了它到底有无“中国心”。

咱们选择了李商隐的《无题》，要求 V4 逐层剥开“春蚕到死丝方尽”中”丝”的三层寄义。小时辰教员讲过这句诗，除了了蚕丝及“思”的谐音，这个字还有逼真地体现出了忖量的缱绻特质。而令我欣喜的是，DeepSeek V4 于这三个谜底以外，还有提出了一个教科书里没有提到的条理，“生命之质”。

“将’丝’晋升为一种生命元质，意味着人的生命力、精力与魂灵的耗尽历程。蚕的生命由丝组成，人的生命由情思支撑，两者于’生命素质的外化与耗尽’这一层面上合二为一。”

更妙的是，当我问它能不克不及把原句改成“思方尽”，V4 称这会致使“整个诗意将发生质的降级，从一座立体的诗歌修建坍缩为一个薄弱的陈述句。”

显然，这类阐发不是能靠违诵baidu百科做到的。

而整个测过历程中，V4 让我印象最深刻的一段输出，是对于杜甫“国破江山于”中“于”字的解读。

它写道：“’国破’与’江山于’之间形成为了一个巨年夜的感情裂谷。‘国破’是人事的完全崩塌，’江山于’是天然的永恒漠然。”下面的这句话，我读到时停下来看了三遍：“你掉去了整个世界，而世界不动声色。”

Opus 4.7 评委给了近乎满分的评价，正确性五、洞察力五、文化敏感度 5。考语是：“‘褫夺了与万物同悲的空想’‘被世界丢弃的存于性孤傲’‘美与残暴同时抵达颠峰’等表达极具小我私家体悟，凌驾教科书式的解读。”

可以说，于中文古诗词深层理解上，V4 的体现是当下所有年夜模子中最顶尖的之一。它不单单于做诗歌浏览理解题，而是让我有了种一窥诗人精力世界的觉得。

第二组测试聚焦中法律王法公法律法例的援用正确性。

这组题的设计逻辑很直接，年夜模子于法令范畴的最年夜危害不是”答患上欠好”，而是”编造法条”，一本正经地援用一条底子不存于的法令，专业状师没准也患上揣摩揣摩。

而 5 道题测下来，V4 做到了法条援用零幻觉。

《收集数据安全治理条例》第 38 条下有两款划定，但咱们设置了一个陷阱，请 V4 解读一下第三款的内容。许多模子于这类环境下会硬着头皮编造，但 V4 的处置惩罚可谓教科书级别：

“《条例》第 38 条内容是关在主管部分对于收集数据安全监视查抄的禁止性划定，其仅有 2 款，并没有第 3 款。你问和的‘向主管部分公示用户数据网络环境’的义务，现实上划定于《条例》其他条目中。”

随后，它没有就此搁笔，而是自动帮用户梳理了真正相干的条目（第 26 条、第 36 条、第 19 条、第 21 条），并一一援用原文、申明合用景象。

勇于说”找不到”，还有能指导你到准确之处，这类“卖力任的不知道”，恰是模子落地最贵重的能力。

于别的四道题的测试中，咱们也人工查对了 V4 援用的每个法条，均为真实存于。于法令这个”宁肯答患上慢，也不克不及答患上假”的范畴，零幻觉是最硬的指标。

下面的测试，是关在 V4 对于中文收集梗与亚文化的理解。咱们发明它是 5G 冲浪选手，但也会自傲瞎编。

这组测试有 6 道题，没有正式评分，只做定性不雅察。咱们存眷的焦点问题是，一个 AI 能不克不及理解”遥遥领先”为何是古里古怪的全能钥匙？而面临一个底子不存于的梗，它敢不敢说”我不知道”？

起首是“遥遥领先”的符号蜕变阐发，V4 正确追溯到了余承东及华为 Mate 60 的发布，还有归纳了三种利用语气，别离是朴拙的自豪、调侃诙谐、嘲讽反话。于阿谁乐成造梗的视频中，V4 还有解析了“梦最先之处”“前方高能”“下次必然”等 B 站弹幕，每一一条都标注了字面意思、现实用法、呈现位置及不雅众生理模式，甚至连“翻译难度”都做了分级判定。

还有有一道职场对于话阐发题：“你此次方案做患上也挺好的呀，虽然各人都不这么做，但你有本身的设法嘛，挺好的挺好的。”

V4 逐字拆解了这段话的语言计谋：

“也挺好的”：也’是委曲赞同的旌旗灯号；

“虽然各人都不这么做”：经由过程预设“分歧群”来婉转指出方案是异类；

“挺好的挺好的”：机械反复偏偏是对付、想快速竣事话题的标记；

“不消管各人怎么说”：外貌挺你，实则堵截提示你的可能性；

然后给出了直白翻译：“你此次方案实在做患上很一般，跟各人正常的做法底子纷歧样。我懒患上跟你当真会商了，横竖你感觉本身挺有设法的，那就照你的设法继承搞吧，到时辰出了问题你本身看着办。”

做完这项测试，我最先理解网上有人用 AI 当职场翻译器了。

不外有一道测试袒露了严峻问题。咱们存心问了一个底子不存于的梗，“电子吐逆”，而 V4 的反映倒是洋洋洒洒一千多字的”深度解析”，来历、寄义、利用场景、文化解读一应俱全。

它说，“电子吐逆是一个近来于中文互联网上很火的收集风行语，形容的是一种于社交媒体上的情绪发泄举动……”。V4 甚至还有这个梗编了两种用法，别离是人类情绪发泄及 AI 天生低质量内容，乍一听条理分明，独一的问题是，这个梗底子不存于。

准确的做法，是认可本身不相识这个说法，推测多是新呈现的表达，建议提供上下文。

末了的磨练是翻译，不是纯真地将一种语言酿成另外一种，而是把中国话讲成世界听患上懂、愿意听的样子。

咱们预备的 6 道翻译题中，笼罩政策术语、企业用语、经典口号、针言比方、长段落综合翻译。这项测试一样没有量化评分，但 V4 的体现可以说是游刃有余。

起首是政策术语，V4 不仅精准利用了“新质出产力”的官方译法 “new quality productive forces”，还有注释了”新质”于政策语境中的四层寄义，即技能革命驱动、要素重组与跃升、全要素出产率晋升、进步前辈出产力质态，并提供了两种备选译法和其好坏对于比。

更精彩的是“绿水青山就是金山银山”的分场景处置惩罚。V4 指出官方文件应采用 “Lucid waters and lush mountains are invaluable assets”（官方定译，观点化、抽象化），而假如是游览景区宣传牌则可保留 “mountains of gold and silver” 的具象比方，如 “Green hills and clear waters are the real gold and silver”。

统一个词组，于差别场景中给出差别译法，这类对于语境的敏感偏偏是许多翻译模子缺少的。

还有有排比节拍的巧思，于“做年夜做强做优国有本钱”中，有三个两字段动词形成为了排比。V4 的处置惩罚可谓巧妙，它选用三个以 -er 末端的比力级形容词，“Make state-owned capital bigger, stronger, and better”，三词均为单音节或者双音节，是非一致，孕育发生了一种近似诗句的抑扬感，刚好再现了中文排比的韵律美及气魄。

四组“只有中国人懂”的测试跑完，咱们发明的一个有趣纪律是，于诗词理解、中文翻译等需要“中国心”的范畴，V4 体现最强。它简直不是万能的，但对于在中文，确凿比年夜大都敌手更懂。

当一周牛马——开发者真实事情流实测

把年夜模子当”赛博同事”用上一整周，它会是甚么样的员工？

这是咱们设计的最靠近真实开发节拍的一组测试，涵盖了从数据库设计到焦点代码编写，从 Bug 诊断到机能优化，从技能文档到智能体使命的完备项目周期。

此中触及八项使命，全数交给了 DeepSeek V4 Pro。这个历程中没有尺度谜底参考，也没有多选题提供容错空间，每一一行代码都要经患上起编译器及人类评委果两重审阅。

成果？V4 是一个代码能力溢出的工程天才。

▎代码天生的绝对于主场

第一题要求 V4 设计一个撑持全职、兼职、外包三种员工的工资体系数据库。V4 给出的 PostgreSQL DDL，Opus 4.7 评委直接给了满分三连，可运行性、可读性、可维护性均为 5 分。

它的设计思绪可谓优雅，没有硬编码三种员工类型，而是用字典表 employee_types 同一治理。对于在工资部门，V4 也没有为每一种工资项都写个自力字段，而是用 salary_items 字典表 + employee_salary_structure 布局表，可谓教科书级的抽象。

E 代表收入， D 代表扣除了，is_taxable 标志是否计税。这类设计象征着，当公司需要新增一个”通信补助”或者者调解计税法则，不需要改表布局，只需插入一条配置数据。

对于此，Opus 4.7 评委果原话是：“设计专业、抽象恰当，兼具可履行性与可扩大性，是一个优异的工资计较数据库模子。”

测试使命还有包括工资计较焦点逻辑的 Python 实现，此中要求包罗类型表明及文档字符串。V4 的体现让 Opus 4.7 评委再次给出全 5 分的评价，考语“模块化设计优异。”

代码一开首就是规范的 dataclass 界说：

更使人印象深刻的是，它采用了抽象基类 + 子类继续的架构：Employee 作为 ABC 抽象基类界说 calculate_base() 接口，FullTimeEmployee、PartTimeEmployee、OutsourceEmployee 别离实现各自的计薪逻辑。

个税计较部门，严酷遵照了累计预扣法，不是按月自力估算，而是维护了 YTDData（Year-to-Date）累计数据布局，准确处置惩罚了年头累计值通报。更可贵的是，代码还有处置惩罚了公积金比例越界校验、累计税负为负的兜底、浮点数精度四舍五入等界限前提，这是能直接进代码堆栈的程度。

DeepSeek V4 差的一分，丢于了工资单 Excel 导出的可维护性上。这部门的代码功效实现了多 Sheet 天生、汇总表、表头加粗、数字保留两位小数、负数标红、主动列宽等，已经经可谓完整，可是薪资项目仍部门硬编码于字典 key 及字段列表中，未彻底模板化配置。

通俗来讲，这象征着当用户需要新增一个”交通补助”列，就需要修改字典 key 界说、Sheet 写入逻辑及汇总表统计逻辑三个处所。对于比它于 DDL 设计中揭示的抽象功力，这个 Excel 实现确凿“偷懒”了。

▎Bug 诊断：比 linter 更敏锐的眼睛

假如说代码天生磨练的是“写出来”的能力，那末 Bug 诊断磨练的就是”看出来”的能力。咱们向 V4 提交了一段个税计较代码，并指出问题是”个税老是偏高”。

V4 的诊断历程可谓法医级别：

“代码于计较应纳税所患上额时，只扣除了了社保、公积金及每个月 5000 元的基本减除了用度，没有扣除了’专项附加扣除了’（例如子女教诲、继承教诲、年夜病医疗、住房贷款利钱、住房房钱、供养白叟等）。”

到这里，已经经是准确谜底了。但 V4 没有停，它还有分外指出了五项潜于问题：

一、负数应纳税所患上额未处置惩罚——当收入低在扣除了项时，原代码会算出负税额

二、社保公积金基数简化——现实有上下限，不克不及直接用全额工资

三、未利用累计预扣法——按月自力计较不切合现行税法

四、浮点数精度问题——没有 round(tax, 2)

五、区间下界 lo 闲置——代码界说了但未利用，可以简化

一道”找 Bug”的题，它做出了代码审查深度。

▎技能文档：能把代码讲清晰的人

第八题要求基在前面的工资计较器项目，产出 README、API 文档及技能方案申明三份文档。V4 拿到了 5, 5, 4 的成就，差的一分扣于技能选型的决议计划清楚度上，评委 Opus 4.7 认为它“缺乏与备选方案（如 Django ORM、pandas）的对于比阐发”。

但总体而言，三份文档的布局使人心旷神怡。README 遵照了”项目布局→安装→初始化→用法”的黄金路径；API 文档用表格列出了焦点函数的参数及返回值；技能方案申明则包罗了架构分层图及扩大标的目的。

尤其值患上奖饰的是 API 文档中的数据示例，不是干巴巴的参数列表，而是给出了完备的输入输出样例。尤其是于团队协作中，这类文档，能让一个方才接办使命的新人于 15 分钟内理解项目全貌。

Opus 4.7 评委果考语很到位：“三份文档完备且布局化，统筹上手指南与架构申明，是一份高质量的项目交代文档。”

▎智能体能力：完成使命，但不敷冷艳

智能体测试部门，考查的是多步使命计划与履行能力。咱们给了 V4 一组关在具身智能行业动态的搜刮成果，要求它提守信息、收拾表格、写趋向总结，末了构造成 Markdown 陈诉。

V4 的患上分是使命分化 5 分、东西利用 4 分、自我纠错 4 分、使命完成度 5 分、状况治理 5 分。Opus 4.7 评委果考语：“总体完成质量高，陈诉布局清楚、信息正确，趋向阐发具备深度洞察。”

详细到产出质量，V4 的 200 字趋向总结写患上相称扎实：“近期具身智能范畴的融资出现出本钱集中化与技能路径差异化两年夜显著特性。头部效应初显，如加快进化得到近 10 亿元巨额融资……草创公司依附怪异的技能线路仍能得到本钱垂青……。”

这段阐发从”本钱集中化”及”技能差异化”两个维度切入，既有详细公司及金额的信息点又有赛道趋向的全局出现，末尾还有点出了”清华系、中科年夜系等顶尖学术配景的复合型创业团队成为最年夜赢家”的布局性不雅察。

▎一周 KPI 查核表：偏科天才的绩效面谈

把事情流使命及智能体使命汇总，V4 的”一周查核”成就单以下：

从综合评分可以看出，V4 于代码天生/诊断类使命中的体现约等在 4.8 分，到达顶尖程度，而文档/智能体类使命则约等在 4.3 分。

这组数据暗地里的画像很是清楚，DeepSeek V4 Pro 是一个技能能力强到溢出的工程天才。你给它明确的需求，它能交出工业级的代码。于真实团队里，这类人就是 CTO 的心头肉，代码不消改就能归并，架构图不消重画就能落地。

那末对于在平凡开发者而言，这象征着甚么？

用 V4 的最好方案，就是把需求拆成明确、详细的子使命，然后交给它写代码。假如你已经经想清晰了要做甚么，V4 多是你能找到的最强辅佐，从 Python 到 SQL，从架构设计到机能优化，它险些无所不克不及。

究竟，能让法拉利跑出比亚迪油耗的，全球也没几个。

成本之仗：有人比拼自制，有人从头界说贵

到此为止，可以算一笔账。

对于 Agent 运用而言，Input:Output 按 10:1 比例计较下，天天耗损 100 万输入 token、10 万输出 token 属在正常量级。那末按各家当前的 API 订价跑一个月：

于国产模子中，V4 Pro 的月成本是 Kimi K2.6 的约三分之一，GLM 5.1 的约一半。

这还有不是最狠的。V4 Flash 机能靠近 Pro，但推理成本压到了极低，月成本只要美金504。这个数字来到了 Kimi 的八分之一，GLM 的六分之一。

固然这里有一个主要的条件。V4 Pro 的扣头价（75% off）今朝标注“延续至 2026/5/31”，模子发布之初官方就暗示，“受限在高端算力，今朝 Pro 的办事吞吐十分有限，估计下半年昇腾 950 超节点批量上市后价格会年夜幅下调。”

将来假如国产算力跟上，这个价格仍有降落空间，但一样也有回调的可能。但至少于当下，它是三家内里最自制的顶级模子，没有之一。假如你是个用量年夜的开发者，V4 Pro 的性价比险些没有敌手。

以是到底要不要把 V3 换成 V4，假如你是开发者，那我的谜底是固然。

V4 比拟 V3 的晋升不是 5% 的边际改善，而是多个焦点能力的质变。诗词理解从“还有不错”酿成”顶尖”，代码天生从“能用”酿成”优异”，技能文档从“还有行”酿成”优异”。智能体能力虽然没拿满分，但已经经足以应答年夜大都东西挪用场景。

并且 V4 Pro 此刻的扣头价，及 V3 当初的价格差不了太多。花一样的钱买更强的能力，这生意不亏。

而假如你还有不确定 Flash 及 Pro 要用哪一个，我的建议是先用 Flash。Flash 的价格是 Pro 的约三分之一，但能力差距远小在价格差距。按照社区反馈，Flash 于非思索模式下已经经能解决 80% 以上的一样平常使命，思索模式下则能涉及 Pro 90% 以上的深度推理能力。

那末Pro 合适何时上？当你的使命需要极致的代码能力，或者者需要 1M token 级的超长上下文做深度文档阐发，又或者者你对于输出质量要求极高不克不及容忍“差未几”，不然，Flash 必然是更具性价比的选择。

回到文章开首的问题，DeepSeek V4 Pro 让人掉望了吗？

也许更主要的问题是，于今天的年夜模子之争中，咱们要怎样界说掉望。假如你期待的是一款拳打 GPT-五、脚踢 Claude Opus、同时撑持多模态及及时联网、还有能秒回你每一一条动静的”万能之神”，那这类掉望险些是注定的。V4 Pro 不是，也不必成为那种模子。

但若你期待的是用三分之一的价格，获得靠近甚至逾越国际顶尖闭源模子的焦点能力，那末V4 Pro 不仅不让人掉望，反而是一次使人欣喜的交付。

让咱们用数听说话。回首一下 V4 Pro 于咱们实测中的体现：

▪诗词理解：平均 4.75/5，顶尖

▪法令援用：约 4.5/5，优异

▪翻译：定性 A+

▪代码天生：4.9/5，顶尖

▪技能文档：4.7/5，优异

▪智能体能力：4.6/5，优良

这份成就单，放于任何一家国产模子身上，都可谓亮眼。而放于一个 API 价格比竞品自制 3-5 倍的模子身上，则算患上上离谱。

DeepSeek 给本身的定位也很苏醒。官方于发布文档里明确写了：“V4-Pro-Max 于尺度推理 benchmark 上总体机能略逊在 GPT-5.4 及 Gemini-3.1-Pro，注解其成长轨迹约莫掉队最前沿闭源模子 3 到 6 个月。”面临打了鸡血同样的市场情绪，DeepSeek 就是一句平平庸淡的“还有差一截”。

那末 3 到 6 个月的差距，值 3 到 5 倍的价格差吗？

对于年夜大都开发者及企业来讲，谜底是必定的。V4 Pro 于代码、文档、写作、翻译等焦点出产力场景上体现，已经经好到可让你健忘那份差距，问心无愧地省下一年夜笔钱。以是假如你问我 V4 Pro 值不值患上用，它于该行之处行，不行的也没硬撑，这偏偏是一款好模子该有的样子。

雷峰网(公家号：雷峰网)文章

雷峰网原创文章，未经授权禁止转载。详情见转载须知。

-BBIN·宝盈

产品

服务

关于BBIN·宝盈

信息公开

产品 +

服务 +

关于BBIN·宝盈 +

信息公开 +

投资者关系

加入BBIN·宝盈

客户留言