> 自媒体 > (AI)人工智能 > DeepSeek V4突然发布了,1.6万亿参数全开源,代码能力压过GPT-5.4
DeepSeek V4突然发布了,1.6万亿参数全开源,代码能力压过GPT-5.4
来源:Ai训练师.三十三
2026-04-28 21:27:27
36
管理

没有发布会,没有预热海报,就这么静悄悄突然的来了。

我赶快得用上,本篇文章采用Claude Code DeepSeek V4 Pro自主撰写;

说回正事。

这次V4不是只有一个模型,是一整个系列。

OpenAI和Google的旗舰模型在写代码这件事上,被一个开源的、MIT协议的模型超了。不是"接近",是明确超过。

▲ DeepSeek-V4-Pro Max 与各前沿模型在知识、代码、数学、长上下文、Agent五大维度的全面对比(来源:DeepSeek V4 技术报告)

说完编码说推理。

V4最大的设计变化是这个:三种推理模式。Non-think(快速直觉回答),Think High(有意识逻辑分析),Think Max(极致推理)。

简单理解:Non-think是你问"今天天气怎么样"用的;Think High是你问"帮我分析这个SQL为什么慢"用的;Think Max是你问"给我证明P≠NP"用的——开玩笑的,这题目前还没人能做出来,但意思到了。

Non-think到Think Max之间,同一个V4 Pro在不同基准上的表现可以从个位数跳到90多分。比如Apex Shortlist从Non-think的9.2分跳到Think Max的90.2分——不是翻倍,是翻了将近10倍。这说明V4在推理模式之间的跨度非常大,不是那种"调个参数意思一下"的级别。

但这里有一个我必须说的"但是"。

V4在知识型任务上,跟Gemini 3.1 Pro还有差距。GPQA Diamond,Gemini 94.3%,V4 Pro Max 90.1%。SimpleQA,Gemini 75.6%,V4 57.9%。差了将近18个百分点。MMLU-Pro,Gemini 91.0%,V4 87.5%。

说白了,Google Gemini在"记住并准确回答事实问题"这件事上还是明显更强。DeepSeek的长板是推理和编程,不是百科全书。

还有一个需要注意的地方:上面列的所有V4 Pro数据,都是Pro Max模式跑出来的。如果你用Pro的Non-think模式,LiveCodeBench只有56.8%。Pro Max的93.5%是靠大量推理时间砸出来的。这不是免费午餐。

···

讲到这,我觉得有一个问题需要说清楚:DeepSeek V4到底意味着什么?

去年12月V3发布的时候,我的观感是"中国团队在算力受限的情况下做出了接近GPT-4o水平的东西,很不容易"。

现在V4发布,观感变了:不是"在条件不好的情况下很不容易",是大家回到同一起跑线了。开源的模型在代码任务上和最强的闭源模型平起平坐甚至略超,推理能力在一个梯队里,知识任务稍弱但差距在缩小。

而且,MIT协议。随便商用,随便改,随便蒸馏。

我认识几个在做AI应用创业的哥们,去年他们最纠结的事就是"选谁家的模型"。选OpenAI怕被锁死,选闭源国产怕不可控,选开源又怕能力跟不上。V4这次,至少给了他们一个可以认真考虑的开源选项——不是"勉强能用"级别的考虑,是"跟最好的比也不虚"级别的考虑。

当然,我也有不确认的事。

第一,V4目前是"预览版"。DeepSeek官网用的是这个词。预览版通常意味着不是最终版本,后续可能有调整。但目前API已经可用了,模型权重也全开源了,所以至少不会是"发个PPT让你期待一下"那种预览。

第二,Flash在Think Max模式下的表现也很能打——LiveCodeBench 91.6%,跟Pro Max的93.5%只有两个点不到的差距——但Flash在网页搜索(BrowseComp)和终端操作(TerminalBench)这些Agent场景上跟Pro有明显差距。这意味着如果你要做复杂Agent应用,还是得上Pro。

···

最后说个有意思的细节。

V4论文标题叫《Towards Highly efficient Million-Token Context Intelligence》。关键词不是"powerful",不是"state-of-the-art",是"efficient"。这篇105页的技术报告里,"efficiency"这个词至少出现了40次。DeepSeek整篇论文反复在讲一件事:不是我们参数多厉害,是我们把效率做到了极致。

考虑到他们在算力受限的条件下做这件事——你可以把这理解成一种"约束下的美学":在有限资源内,靠架构创新而不是靠堆算力拿到世界级结果。

这大概也是为什么我觉得V4值得写一篇。不是因为数字好看——数字确实好看——是因为在这个训练成本飞涨、大家都觉得"没有几亿美元就做不了前沿模型"的2026年,有人用另一种方式证明了:不一定。

相关资源 & 链接

技术报告(105页PDF)https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf DeepSeek-V4-Pro(1.6T/49B激活)https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro DeepSeek-V4-Flash(284B/13B激活)https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash DeepSeek-V4-Pro-Base(基座模型)https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro-Base DeepSeek-V4-Flash-Base(基座模型)https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash-Base 魔搭社区 - V4 Pro(国内加速)https://modelscope.cn/models/deepseek-ai/DeepSeek-V4-Pro 魔搭社区 - V4 Flash(国内加速)https://modelscope.cn/models/deepseek-ai/DeepSeek-V4-Flash DeepSeek 官网https://deepseek.com 在线体验 V4https://chat.deepseek.com API 文档(支持 OpenAI / Anthropic SDK 兼容调用)https://api-docs.deepseek.com GitHubhttps://github.com/deepseek-ai

觉得有用?转发给一个可能会用到的朋友。有什么想讨论的,评论区聊。

还没关注?点上面的「Ai训练师.三十三」,我每周写AI圈里值得认真说的事。

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
关于作者
赶海的老阿姨..(普通会员)
文章
2015
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体105789

0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索