DeepSeek V4 发布了预览版。1.6 万亿参数、100 万 token 上下文、MIT 开源协议、SWE-bench 80.6%——数据看着很强。
但数据是数据,能不能用是另一回事。我做了两个场景的实测,结论先放这:DeepSeek V4 是目前国产模型中最适合跑 Agent 任务的,没有之一。
先说背景:为什么测这个
我之前写过一篇文章,讲国产模型在 AI Coding 领域的真实差距。核心问题是:长链路任务容易断——改了 A 坏了 B,来回兜圈子,越改越乱。
DeepSeek V4 号称在 Agent 能力上大幅提升,而且提供了 Anthropic 兼容的 API 接口。这意味着可以直接把它接入 Claude Code 和我自己的 Agent 框架,在真实工作流里对比测试。
所以我设计了两个测试场景:
场景一:接入 Claude Code,替换后端模型,跑完整的多 Agent 开发流程场景二:接入我自己的 Agent 框架,测试长链路任务的指令遵循能力场景一:替换 Claude Code 后端
配置方式
DeepSeek V4 提供了 Anthropic Messages 格式的兼容接口,接入非常简单。在 Claude Code 的配置里改几个环境变量就行:
ANTHROPIC_BASE_URL: "https://api.deepseek.com/anthropic"ANTHROPIC_DEFAULT_HAIKU_MODEL: "deepseek-v4-flash"ANTHROPIC_DEFAULT_OPUS_MODEL: "deepseek-v4-pro"ANTHROPIC_DEFAULT_SONNET_MODEL: "deepseek-v4-pro"CLAUDE_CODE_EFFORT_LEVEL: "max"
就这样,Claude Code 的所有请求都会走 DeepSeek 的 API,模型替换成 V4-Pro 和 V4-Flash。
测试内容
我跑了 Claude Code 里比较复杂的几个流程:
多 Agent 并行任务:同时启动权限守卫实现 spec 审查 代码质量审查brainstorming Skill:从零开始新项目的头脑风暴,包括需求分析、平台选择、MVP 规划方案评估:自动提出 2-3 个实现方案,分析 trade-offs,推荐最优解结果
能跑通。 多 Agent 调度、Skill 调用、代码生成和审查都能正常工作。这本身就说明 V4 的 Anthropic 兼容度做得到位——这些流程对 API 格式的要求是很严格的,差一点都跑不起来。
但也有明显的问题:
速度是瓶颈
一个代码审查 Agent 任务跑了 41 分钟。同样的任务用 Claude Opus 通常在 5-10 分钟内完成。V4-Pro 的推理速度还需要优化,尤其是在长上下文场景下。当然,这是预览版,后续应该会改善。
费用
整个测试过程的 API 费用:
模型
请求数
Token 用量
V4-Pro
145 次
805 万
V4-Flash
41 次
69.7 万
总费用:¥15.73
875 万 token,15 块钱。同等用量如果走 Claude Opus API,远不止这个价。价格差距接近 50 倍。
场景二:接入自有 Agent 框架
第二个场景是把 V4 接入我自己写的 Agent 框架,测试长链路任务。
之前国产模型在我的 Agent 里最大的问题就是长链路断裂。一个需要 10 步才能完成的任务,执行到第 5、6 步就开始丢上下文、忘记之前的决策、不遵循预设的流程规范。
V4 的表现让我意外:
长链路任务能完美执行
在多步骤的开发任务中,V4-Pro 能够稳定地维持上下文,按照预设的流程一步步推进。不会像之前的国产模型那样,跑着跑着就「忘了自己在干嘛」。指令遵循能力非常强,给出的流程规范基本都能严格执行。
这是 V4 最让我惊喜的地方。以前我一直认为长链路 Agent 任务是国产模型的硬伤,但 V4 在这个维度上确实跨了一大步。100 万 token 的上下文窗口加上更强的指令遵循能力,让它在实际的 Agent 场景中变得真正可用。
V4 的核心参数
快速过一下 V4 的关键数据:
V4-Pro
V4-Flash
总参数
1.6 万亿
2840 亿
激活参数
49B
13B
上下文
100 万 token
100 万 token
SWE-bench
80.6%
-
输入价格
$1.74/百万 token
$0.14/百万 token
输出价格
$3.48/百万 token
$0.28/百万 token
开源协议
MIT
MIT
MoE(混合专家)架构,V4-Pro 虽然总参数 1.6 万亿,但每次推理只激活 49B,效率很高。价格只有 Claude Opus 的六分之一左右。
总结:能用,但看场景
两个场景测下来,我的结论是:
V4 做对了什么
Anthropic API 兼容 — 能直接接入 Claude Code 生态,降低迁移成本长链路指令遵循 — 多步骤 Agent 任务不再断裂,这是之前国产模型的最大短板价格极低 — 同等用量只有 Claude 的 1/50,适合大量 Agent 调用100 万上下文 — 大型项目的长链路任务有足够的空间MIT 开源 — 可以本地部署,数据不出境V4 还差什么
推理速度 — 复杂任务耗时是 Claude 的 4-8 倍,预览版的通病,等正式版优化代码质量上限 — 能完成任务,但代码的精细度和 Claude Opus 还有差距适用建议
高价值、低容错的核心功能 → 继续用 Claude Opus大量重复性的 Agent 任务、代码审查、文档生成 → V4-Pro 性价比极高子 Agent / 辅助任务 → V4-Flash 几乎零成本数据安全敏感场景 → V4 开源本地部署
DeepSeek V4 不是来替代 Claude 的,但它给了我们一个真正可用的性价比方案。尤其是在 Agent 框架中,长链路任务终于不再是国产模型的禁区。
这是国产模型第一次让我在 Agent 场景里感到「能用」,而不是「凑合用」。
相关文章









猜你喜欢
成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体105740