> 自媒体 > (AI)人工智能 > DeepSeek V4首轮测评来了,代码冲进开源前列,价格还打到1%
DeepSeek V4首轮测评来了,代码冲进开源前列,价格还打到1%
来源:小只谈谈
2026-04-28 21:16:19
120
管理

DeepSeek V4预览版刚开源,第一波外部测评就把市场情绪点起来了。简单说,这次大家盯住的不是一句“又发新模型”,而是两个更现实的问题,能不能打,贵不贵?

目前看,V4在代码任务上已经冲进开源第一梯队,综合能力也贴近头部,另一边价格压得更狠,100万token上下文配上低价,开发者试用门槛又往下掉了一截。这种组合,为什么会引发这么大讨论?因为现在大模型竞争,已经不只是拼谁最强,还在拼谁更能落地。

先看外部成绩。Arena.ai在V4发布当天给出的结果是,V4 Pro思考模式在代码竞技场排到开源第3,综合第14,并把它定义成相较V3.2的一次重大飞跃。这个排名什么意思?说白了,就是它不再只是“便宜能用”,而是开始进入能和前沿模型正面对比的区间。

另一家评测方Vals AI的结论更直接。它在Vibe Code Benchmark里给出结果,V4拿下开源权重模型第一,不只压过Kimi K2.6,还赢了Gemini 3.1 Pro这类闭源模型。更夸张的是,和V3.2相比,性能提升被描述成大约10倍。为什么这点格外吸睛?因为V3.2在这个基准上只有5分,跨度确实大。

不过,讨论很快也分成了两拨。一拨觉得这次性价比几乎“打穿”,尤其对代码场景用户来说,吸引力很强。另一拨更谨慎,有试用者反馈,V4 Flash的体感提升没有想象中那么大,和已经比较成熟的V3.2相比,升级感没完全拉满。这也提醒了一点,榜单成绩和日常使用体验,不一定总是同步。

价格这边,才是很多开发者真正会算账的地方。V4-Flash输入价格每百万token 0.14美元,输出0.28美元。这个数字放在现在的大模型市场里,确实低得扎眼。和Claude Opus 4.7相比,输出价格低了99%以上。V4-Pro也没走高价路线,输入1.74美元,输出3.48美元,在大模型前沿区间里属于低位。

为什么低价会这么重要?因为不少团队现在卡住,不是卡在“没有模型可用”,而是卡在“长期用不起”。尤其代码生成、智能体调用、长文档处理,token消耗特别快。一个模型便宜几倍,落到月账单上就是完全不同的数字。前几年很多企业试点大模型,最后停在了成本这关,这次DeepSeek显然就是冲着这个痛点去的。

再看配置,两款模型都支持100万token超长上下文,这个参数不是拿来摆着好看的。做长合同、技术文档、项目代码仓分析,甚至多轮Agent任务时,长上下文会直接影响能不能少切片、少丢信息。之前很多模型在演示里看着厉害,一到长任务就开始忘前文,这次DeepSeek明显想把这个短板补上。

官方自己的表述反而没那么激进。DeepSeek给出的说法是,在知识和推理任务上,V4-Pro接近Gemini等闭源系统,但和最先进模型还有3到6个月差距。代码和Agent任务差距更小,部分场景已经能贴近甚至超过Claude Sonnet。你看,这种说法其实挺克制,不像外界评价那么热闹。

真正关键的不是“它已经全面第一”,而是它用开源加低价,把原来只有头部闭源模型才能占住的位置,往下拽了一把。对开发者来说,这种变化最直接。以前你想追求高一点的代码能力,往往要接受更高的调用成本,或者受限于闭源接口。现在多了个可选项,决策空间就大了。

类似情况其实已经出现过。年初一些开源代码模型突然提速后,独立开发者最先受益,因为他们预算最紧,试错空间最小。还有一类企业用户也会跟进,就是想做本地部署、又不愿完全押注单一闭源平台的团队。V4-Pro总参数1.6万亿,激活参数49B,V4-Flash总参数2840亿,激活参数13B,这种架构虽然不轻,但对有部署需求的公司来说,选项确实更多了。

当然,别把这事理解成“低价就一定通杀”。官方已经提示了一个现实问题,受限于高端算力,Pro服务吞吐目前有限。也就是说,纸面价格低,不代表所有人现在都能稳定拿到同样流畅的服务。后面如果算力供应跟上,尤其下半年相关超节点批量上市,价格还有继续下调空间,那时才可能真正放大它的优势。

还有一个容易忽略的点,DeepSeek这次不只是发模型,也在强调工程效率。官方提到,在100万token场景下,V4-Pro单token推理算力只有V3.2的27%,KV缓存只有10%,Flash更低。翻成大白话,就是长文本场景下,它想用更少的资源干更多的活。为什么很多人看重这点?因为大模型商业化走到今天,光有高分不够,算得起、跑得动,才更像产品。

国产算力适配也成了这次的一个记忆点。DeepSeek说,V4是全球首个在国产算力底座上完成训练和推理的万亿参数级模型,在华为昇腾平台上已经完成验证,寒武纪也做了适配。这个方向的意义,不只是技术展示,更像是在给后面的部署和供应链留后手。

所以,这次V4上线最值得看的,其实是三件事叠在一起。代码能力明显跃升,价格继续下压,长上下文和国产算力适配也往前推了一步。它还没到“把所有闭源模型都甩开”的地步,这点官方自己都没这么说,但它已经把开源模型的天花板又抬高了一段。

接下来会怎么走?短期看,社区会继续盯真实体验,特别是Flash和Pro在不同场景下的稳定性。再往后看,如果吞吐问题缓解,价格继续下探,V4带来的冲击可能不只是榜单排名,而是会逼着整个市场重新算一遍成本账。对用户来说,这种竞争越激烈,反而越是好事。

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
关于作者
天外天(普通会员)
文章
1947
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体105789

0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索