DeepSeek V4首轮测评来了，代码冲进开源前列，价格还打到1%-工信会

> 自媒体 > （AI）人工智能 > DeepSeek V4首轮测评来了，代码冲进开源前列，价格还打到1%

DeepSeek V4首轮测评来了，代码冲进开源前列，价格还打到1%

来源：小只谈谈

2026-04-28 21:16:19

137

管理

DeepSeek V4预览版刚开源，第一波外部测评就把市场情绪点起来了。简单说，这次大家盯住的不是一句“又发新模型”，而是两个更现实的问题，能不能打，贵不贵？

目前看，V4在代码任务上已经冲进开源第一梯队，综合能力也贴近头部，另一边价格压得更狠，100万token上下文配上低价，开发者试用门槛又往下掉了一截。这种组合，为什么会引发这么大讨论？因为现在大模型竞争，已经不只是拼谁最强，还在拼谁更能落地。

先看外部成绩。Arena.ai在V4发布当天给出的结果是，V4 Pro思考模式在代码竞技场排到开源第3，综合第14，并把它定义成相较V3.2的一次重大飞跃。这个排名什么意思？说白了，就是它不再只是“便宜能用”，而是开始进入能和前沿模型正面对比的区间。

另一家评测方Vals AI的结论更直接。它在Vibe Code Benchmark里给出结果，V4拿下开源权重模型第一，不只压过Kimi K2.6，还赢了Gemini 3.1 Pro这类闭源模型。更夸张的是，和V3.2相比，性能提升被描述成大约10倍。为什么这点格外吸睛？因为V3.2在这个基准上只有5分，跨度确实大。

不过，讨论很快也分成了两拨。一拨觉得这次性价比几乎“打穿”，尤其对代码场景用户来说，吸引力很强。另一拨更谨慎，有试用者反馈，V4 Flash的体感提升没有想象中那么大，和已经比较成熟的V3.2相比，升级感没完全拉满。这也提醒了一点，榜单成绩和日常使用体验，不一定总是同步。

价格这边，才是很多开发者真正会算账的地方。V4-Flash输入价格每百万token 0.14美元，输出0.28美元。这个数字放在现在的大模型市场里，确实低得扎眼。和Claude Opus 4.7相比，输出价格低了99%以上。V4-Pro也没走高价路线，输入1.74美元，输出3.48美元，在大模型前沿区间里属于低位。

为什么低价会这么重要？因为不少团队现在卡住，不是卡在“没有模型可用”，而是卡在“长期用不起”。尤其代码生成、智能体调用、长文档处理，token消耗特别快。一个模型便宜几倍，落到月账单上就是完全不同的数字。前几年很多企业试点大模型，最后停在了成本这关，这次DeepSeek显然就是冲着这个痛点去的。

再看配置，两款模型都支持100万token超长上下文，这个参数不是拿来摆着好看的。做长合同、技术文档、项目代码仓分析，甚至多轮Agent任务时，长上下文会直接影响能不能少切片、少丢信息。之前很多模型在演示里看着厉害，一到长任务就开始忘前文，这次DeepSeek明显想把这个短板补上。

官方自己的表述反而没那么激进。DeepSeek给出的说法是，在知识和推理任务上，V4-Pro接近Gemini等闭源系统，但和最先进模型还有3到6个月差距。代码和Agent任务差距更小，部分场景已经能贴近甚至超过Claude Sonnet。你看，这种说法其实挺克制，不像外界评价那么热闹。

真正关键的不是“它已经全面第一”，而是它用开源加低价，把原来只有头部闭源模型才能占住的位置，往下拽了一把。对开发者来说，这种变化最直接。以前你想追求高一点的代码能力，往往要接受更高的调用成本，或者受限于闭源接口。现在多了个可选项，决策空间就大了。

类似情况其实已经出现过。年初一些开源代码模型突然提速后，独立开发者最先受益，因为他们预算最紧，试错空间最小。还有一类企业用户也会跟进，就是想做本地部署、又不愿完全押注单一闭源平台的团队。V4-Pro总参数1.6万亿，激活参数49B，V4-Flash总参数2840亿，激活参数13B，这种架构虽然不轻，但对有部署需求的公司来说，选项确实更多了。

当然，别把这事理解成“低价就一定通杀”。官方已经提示了一个现实问题，受限于高端算力，Pro服务吞吐目前有限。也就是说，纸面价格低，不代表所有人现在都能稳定拿到同样流畅的服务。后面如果算力供应跟上，尤其下半年相关超节点批量上市，价格还有继续下调空间，那时才可能真正放大它的优势。

还有一个容易忽略的点，DeepSeek这次不只是发模型，也在强调工程效率。官方提到，在100万token场景下，V4-Pro单token推理算力只有V3.2的27%，KV缓存只有10%，Flash更低。翻成大白话，就是长文本场景下，它想用更少的资源干更多的活。为什么很多人看重这点？因为大模型商业化走到今天，光有高分不够，算得起、跑得动，才更像产品。

国产算力适配也成了这次的一个记忆点。DeepSeek说，V4是全球首个在国产算力底座上完成训练和推理的万亿参数级模型，在华为昇腾平台上已经完成验证，寒武纪也做了适配。这个方向的意义，不只是技术展示，更像是在给后面的部署和供应链留后手。

所以，这次V4上线最值得看的，其实是三件事叠在一起。代码能力明显跃升，价格继续下压，长上下文和国产算力适配也往前推了一步。它还没到“把所有闭源模型都甩开”的地步，这点官方自己都没这么说，但它已经把开源模型的天花板又抬高了一段。

接下来会怎么走？短期看，社区会继续盯真实体验，特别是Flash和Pro在不同场景下的稳定性。再往后看，如果吞吐问题缓解，价格继续下探，V4带来的冲击可能不只是榜单排名，而是会逼着整个市场重新算一遍成本账。对用户来说，这种竞争越激烈，反而越是好事。

赏礼

赏钱

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

DeepSeekV4引爆国产算力，谁将成为中国的英伟达

1个月前

测DeepSeek V4

1个月前