一个靠价格打天下,一个靠精度守江山。这场差距,比你想象的更有意思。
2026 年 4 月 16 日,Anthropic 发布了 Claude Opus 4.7。
隔了一周之后,4月24日,DeepSeek V4系列正式和大家见面了。在差不多的这一个星期里面,GPT-5.5还有Kimi K2.6也都集中着发布出来了。有好几家的大模型都挤在同一个时间段里亮相,这里面所包含的意思其实不用过多去解释。
编程能力是这场混战中算是最受关注的一项了。毕竟现在 AI 写代码已经成了日常,谁强谁弱,直接关系到你每天能少加多少班。
那 DeepSeek V4 在编程上跟 Claude Opus 4.7 到底有多少差距呢?
先给结论:有差距。但差距的性质变了——不再是能不能用,而是在什么场景值得多花点钱。
提前说明一下:下面这些 benchmark 分数,都是在特定环境以及特定配置下跑出来的。要是换个框架,或是换个 effort level,数字说不定就会有所不同。它们能够看出大的方向,但不能当作绝对的真理。只有自己实际测试过才算数。
业内目前用得最多的编程能力标杆是SWE-bench。它并不会让你去刷那些算法题,而是需要你去修复GitHub上真实项目里存在的bug,同时还要为这些项目添加真实的功能。其中有一个叫做SWE-bench Verified的子集,是由普林斯顿大学的研究人员所构建的,这里面的500个实例全部都经过了人工筛选,也是目前业内公认最靠谱的一款评测工具。
Anthropic 官方博客当中所披露的数据显示,Claude Opus 4.7 拿到了 87.6分的成绩。 而上一代的 Opus 4.6 版本,对应的成绩则是 80.8分。
DeepSeek 官方发布的技术报告里,V4-Pro-Max也就是thinking/max模式的高配版本,拿到了80.6分的成绩,和Opus 4.6的80.8分之间也就只差那么一点点。
我们再来聊聊SWE-bench Pro,它的难度其实会更高一些。根据Anthropic官方博客所发布出来的数据,Opus 4.7的得分是64.3,Opus 4.6的得分则是53.4,这一代的成绩直接上涨了11分。
在DeepSeek官方发布的技术报告里面,V4-Pro-Max这款模型在Pro版本的基础上,其表现达到了55.4分。把它和Opus 4.7的64.3分放在一起进行比较的话,二者之间大概相差了9分左右。

从整体的走向来看是相当清晰的:简单任务和中等任务这两类场景当中,两个模型之间的竞争都算得上是十分激烈,彼此咬得都很紧。而真正的差距,主要就拉开在难度最高的那一批任务上面。
光比分数没劲。真正拉开差距的,是价格。
DeepSeek V4-Pro 在刚发布的时候,定下的价格是输入每百万 Token 要 1.74 美元,输出则是每百万 Token 3.48 美元。不过到了4月26号这一天,DeepSeek推出了幅度达到75%的促销折扣,而且还直接宣布说这个折扣后的价格会一直生效下去。所以现在的实际价格是:
V4-Pro 输入 $0.435 输出 $0.87
V4-Flash 输入 $0.14 输出 $0.28
Claude Opus 4.7 呢?
输入 $5 输出 $25
Agent 编程场景其实存在这么一个特性,也就是模型需要反复去读取上下文、输出代码还有给出修改建议,它所输出的内容量通常要远大于输入的内容。在实际的工作负载当中,输出和输入的比例经常处于5:1到10:1这个区间里面。仅从输出价格这方面来看的话,Opus 4.7差不多是V4-Pro的29倍,同时也是V4-Flash的89倍。
要是把输入加权算进去的话,实际的价格差距会处于20到40倍这个区间。如果等到下半年昇腾950量产之后,V4-Pro再进行一轮降价,那么这个价格倍数还会继续往上提升。
落到实际工作中什么概念?你可以试着算一笔账,这样就能够明白了。
假设你或你的自动化流水线,一天跑 500 次 Agent 调用,每次平均输出 2000 Token:
Claude Opus 4.7 $25/天 → $750/月
DeepSeek V4-Pro $0.87/天 → $26/月
如果按一个月30天来计算的话,前者所需要的费用是750,后者则只需要26。 够给团队买好几套开发工具,或者加一台服务器了。

当然,500次不过是用来举例说明的情况。咱们个人开发者一天可能也就几十次,至于大团队的CI/CD流水线,可能会上千次——按照你自己的实际场景来换算就行。
这就逼出一个很现实的问题:
花几十倍的钱,换 Opus 4.7 在复杂任务上多出来的那点精度,到底值不值得呢?
大部分团队的回答大概是:看情况。
- 写 CRUD、修小 bug、生成单测 → V4 完全够用,V4-Flash 也能扛
- 跨多个文件、逻辑绕好几层、需要来回推理的硬骨头 → Opus 4.7 才真正派上用场
DeepSeek 自己在 V4 版本发布的相关公告里面也提到过,他们内部已经开始使用 V4 来推进 Agentic Coding 的相关工作了,实际使用体验要比 Sonnet 4.5 更好,最终交付的质量也差不多能赶上 Opus 4.6 的非思考模式。不过要是和 Opus 4.6 的思考模式比起来,还是存在着一定的差距。现在 Opus 4.7 又比 4.6 提升了不少,这样的差距在短时间内恐怕还会继续存在。
原因就藏在它整体的架构设计当中。
CSA + HCA 混合注意力机制 × Muon 优化器 × mHC
1M Token 超长上下文:计算量仅 V3.2 的 27% FLOPs,KV cache 压到 10%
说白了,不是靠堆显卡降本,是靠算法效率把推理成本打下来的。要是其他厂商想要跟进推出类似产品,就得先在整体架构层面追上来才行
不过冷静来说一句:1M 上下文,能存进去和能用好其实是两码事。不少开发者通过实测发现,当上下文被拉到很长之后,中间位置的信息检索准确率会出现往下掉的情况。这也就是目前几乎所有大模型的通病,就连 V4 也没能逃掉。把整个代码库扔进去做全局分析是可行的,但要是你的问题刚好卡在上下文的中段盲区,那么结果可能就不如你预期。
我们还可以从另一个维度来展开讨论**:竞赛型编程和工程型编程这两类模型,它们的实际表现其实是反过来的。**

LiveCodeBench 93.5%
Codeforces 3206
在竞赛编程这个领域当中,确实是压过了 Claude Opus 4.7 这款模型的。DeepSeek 在算法题解决、数学推理以及 STEM 相关方向上的基础确实是过硬的,从 V3 版本的时代开始就一直是它的强项所在。
Anthropic 在 Opus 4.7 的发布博客里面,专门拿出了不少篇幅来聊竞赛编程相关的那些进展,还表示 Opus 4.7 在这一领域比起前代的产品来说提升得相当明显。专门把这部分内容拿出来进行说明这件事,本身其实就体现出他们对于这一维度的竞争,确实是十分在意的。
修 bug、重构代码、理解巨大代码库的上下文、跨多个文件协同改——这些更吃意图理解和长程规划。
Anthropic 深耕了很久,Claude Code 那套 Agent 工具链就是为这些场景造的:
task budgets → 给 Agent 设 Token 预算上限
xhigh effort → 最高投入模式
/ultrareview → 深度代码审查
你可能误会了,我并不是说DeepSeek V4不会做工程方面的事情。Pro-Max版本在SWE-bench Verified上拿到了80.6%的成绩,Pro版本也拿到了55.4%,它的工程能力其实并不算弱。只是在那种高难度、需要多文件协同配合的复杂工程任务当中,和Opus 4.7比起来还是存在一定差距的。
换个角度来说,Opus 4.7 竞赛编程也在追。两个模型能力有交集,只是舒适区不一样。
模型本身所具备的能力是一回事,而它周边所配套的工具生态则是另一回事。

Claude Code 全套跟模型一起打磨:
- 多 Agent 协作
- task budgets
- 自适应思考模式
- Claude Cowork(企业场景)
体验一致性不用多说。
能跑在 Claude Code、OpenCode、CodeBuddy 上,但说到底是在别人的壳里跑。V4-Pro 表现不错,V4-Flash 碰到复杂事务型逻辑时,稳定性跟顶级闭源模型比还有差距。
Claude 目前没有的两样东西:
① 开源。 MIT 协议(附带禁止非法使用条款,不影响绝大多数商业场景)。私有化部署,数据不出门——金融、政务、军工,这可能是决定性的。
② 长上下文下的推理效率。 Opus 4.7 也支持 1M Token 窗口,但 V4 的 CSA+HCA 架构在 1M 上下文下推理成本极低——仅 V3.2 的 27% FLOPs 和 10% KV cache。这也就意味着,你往 V4 里面导入整个代码库来开展跨文件分析,不只是在功能层面能够顺利实现,在经济成本方面也算得上十分划算。
平心而论,这当中其实并没有什么标准答案。不过有几个可以用来判断的角度,能够帮你把自己的思路给理得更清楚一些。
- 预算吃紧,调用量大,一天百万级 Token值
- 常规开发:接口、修 bug、单测、文档
- 需要私有化部署,或数据不能出境
- 经常跨文件分析,看重长上下文推理成本
- 高难度工程任务:复杂重构、多文件协同、架构设计
- 重度依赖 Agent 工作流,模型需长时间自主跑不出错
- 预算宽裕,愿意为稳定性和精度买单
- 已在 Claude Code 生态里,切换成本高
最聪明的搞法:混着用。
简单任务 → V4-Flash(最便宜)
中等任务 → V4-Pro
硬骨头 → Opus 4.7目前已经有不少团队都在这么做,他们借助OpenRouter这类平台来开展模型路由的相关工作,按照任务的难度进行分流,这样综合成本能够压低到纯使用Opus的几分之一,甚至是几十分之一。

以上建议仅供参考。实际选型请结合自己的业务场景充分开展测试,benchmark 分数并不能替代真实环境当中的验证
一年前,当大家在聊起国产模型和海外顶级模型之间存在的差距时,被问到最多的问题是能不能用。
现在咱们来聊聊多花几十倍的钱到底值不值这个话题。
这个变化本身,其实比任何基准测试分数都更能说明相关的问题。
DeepSeek V4在编程方面和Claude Opus 4.7确实还存在着一定的差距,尤其是在难度最高的那一批工程任务当中。不过这样的差距,正在从原本那种质的差距,慢慢转变为量的差距以及场景适配方面的差距。
DeepSeek V4 在发布时的公告当中提到了这样一点:受到高端算力的限制,目前 V4-Pro 的服务吞吐能力是相当有限的,预计等到今年下半年昇腾 950 超节点批量上市之后,价格还会进行进一步的调整。
当然,这只是官方给出的预期,实际的情况说不定会有新的变动,我们不妨后面再来看看是不是这样。
到那时候,这个差距说不定真会被重新定义一次。
声明: 本文基于 2026 年 5 月 25 日前公开信息撰写,数据来自 Anthropic 官方博客及 DeepSeek 官方技术报告。benchmark 分数因评测环境而异,仅供参考。文中建议不构成投资或采购决策依据。AI 生成代码需人工审查后方可直接使用。









暂无评论内容