
图丨基准测试结果(来源:DeepSeek)
但纯知识和最难的通用推理,V4 离前沿闭源还有明显距离。SimpleQA-Verified 57.9% 相对 Gemini 3.1-Pro 的 75.6% 差了 17 个百分点;HLE(Humanity's Last Exam)Pass@1 只有 37.7%,落后 Gemini 的 44.4。团队在 Summary 部分很坦诚地表示:V4-Pro-Max 的推理能力“超过 GPT-5.2 和 Gemini-3.0-Pro,但略低于 GPT-5.4 和 Gemini-3.1-Pro,对应大约 3 到 6 个月的发展差距”。
V4-Flash-Max 的定位也被明确:推理任务上能打到 V4-Pro-Max 的水准,但知识密度和最复杂的 agentic workflow 上,小尺寸依然吃亏,这本来也是 MoE 结构的预期表现。
真实任务:超 Sonnet 4.5,追 Opus 4.5
技术报告还专门评测了几项 DeepSeek 自己用户最常用的真实场景。
中文写作测试里,V4-Pro 在功能性写作上以 62.7% 对 34.1% 胜 Gemini 3.1-Pro(理由是 Gemini“经常用自己的风格偏好覆盖用户要求”);创意写作的指令跟随 60% 对 40%、写作质量 77.5% 对 22.5% 也都压过 Gemini。但换到最难的任务,比如高复杂度约束、多轮对话,Claude Opus 4.5 还是以 52.0% 对 45.9% 反超 V4-Pro。
内部的 30 个中文白领任务评测里,V4-Pro-Max 整体非输率 63%,单项得分在任务完成和内容质量上显著高于 Opus-4.6-Max,但在格式审美和指令遵循上略输。报告给出的解释是 V4 更擅长长段叙事和主动补全用户潜在意图,而 Opus 更擅长精确执行具体格式约束和简洁摘要。
在代码 Agent 方面,DeepSeek 从 50 多位内部工程师那里收集了 200 多个真实 R&D 任务,筛选出 30 个作为评测集,覆盖 PyTorch、CUDA、Rust、C 的功能开发、bug 修复、重构等场景。
通过率分布如下:Claude Haiku 4.5 13%、Sonnet 4.5 47%、V4-Pro-Max 67%、Opus 4.5 70%、Opus 4.5 Thinking 73%、Opus 4.6 Thinking 80%。V4 把 Sonnet 4.5 甩开 20 个百分点,但还差 Opus 系列一个身位。配套的 85 人内部调研里,52% 的开发者说 V4-Pro 可以作为日常编程的主力模型,另有 39% 表示“倾向于可以”。
率道而行
一个礼拜前,X 平台上普林斯顿博士生 Yifan Zhang 放出的 V4 完整规格单和今天的报告大部分对得上:Muon 优化器、纯文本、每层 384 个专家激活 6 个(Pro 版配置)、GRPO。但两个关键点和爆料有偏差。一是 DeepSeek 最终把注意力机制命名成了 CSA HCA 混合,而不是此前流传的 “DSA2(NSA DSA)”。二是此前多个爆料反复暗示的"原生多模态"并没有出现,V4 依旧是纯文本,略有遗憾。
另一个被传了很久但没出现的是 Engram 条件记忆。去年底到今年初,中文圈普遍押注 V4 会引入 Engram 作为核心,把静态知识检索从 attention 里独立出去。
V4 最终没走这条路,而是在既有的稀疏注意力框架内做得更深:CSA 的压缩 稀疏两步组合,是对 V3.2 DSA 的连续演进。值得一提的是,DeepSeek 在报告最后的 Future Directions 里留了一手,下一步要探索“更稀疏的 embedding 模块”,并点名引用了 2026 年 1 月的 Conditional Memory via Scalable Lookup 论文。
过去几个月,关于 DeepSeek 的叙事从“神话”滑到“跌下神坛”再到“已经掉队”;关于 V4 的技术猜测从 1T 到 1.6T、从 DSA2 到 Engram、从原生多模态到纯文本之间来回切换。V4 发布这天,官方推文没有回应这些猜测中的任何一条,没有反驳,也没有比较,只引了一句《荀子·修身》:“不诱于誉,不恐于诽,率道而行,端然正己。”
参考资料:
1.https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf
运营/排版:何晨龙
注:封面/首图由 AI 辅助生成
相关文章









猜你喜欢
成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体105719