> 自媒体 > (AI)人工智能 > DeepSeek V4 实测:从两个场景看看效果
DeepSeek V4 实测:从两个场景看看效果
来源:质取tech
2026-04-28 12:46:34
89
管理

DeepSeek V4 发布了预览版。1.6 万亿参数、100 万 token 上下文、MIT 开源协议、SWE-bench 80.6%——数据看着很强。

但数据是数据,能不能用是另一回事。我做了两个场景的实测,结论先放这:DeepSeek V4 是目前国产模型中最适合跑 Agent 任务的,没有之一。

先说背景:为什么测这个

我之前写过一篇文章,讲国产模型在 AI Coding 领域的真实差距。核心问题是:长链路任务容易断——改了 A 坏了 B,来回兜圈子,越改越乱。

DeepSeek V4 号称在 Agent 能力上大幅提升,而且提供了 Anthropic 兼容的 API 接口。这意味着可以直接把它接入 Claude Code 和我自己的 Agent 框架,在真实工作流里对比测试。

所以我设计了两个测试场景:

场景一:接入 Claude Code,替换后端模型,跑完整的多 Agent 开发流程场景二:接入我自己的 Agent 框架,测试长链路任务的指令遵循能力

场景一:替换 Claude Code 后端

配置方式

DeepSeek V4 提供了 Anthropic Messages 格式的兼容接口,接入非常简单。在 Claude Code 的配置里改几个环境变量就行:

ANTHROPIC_BASE_URL: "https://api.deepseek.com/anthropic"ANTHROPIC_DEFAULT_HAIKU_MODEL: "deepseek-v4-flash"ANTHROPIC_DEFAULT_OPUS_MODEL: "deepseek-v4-pro"ANTHROPIC_DEFAULT_SONNET_MODEL: "deepseek-v4-pro"CLAUDE_CODE_EFFORT_LEVEL: "max"

就这样,Claude Code 的所有请求都会走 DeepSeek 的 API,模型替换成 V4-Pro 和 V4-Flash。

测试内容

我跑了 Claude Code 里比较复杂的几个流程:

多 Agent 并行任务:同时启动权限守卫实现 spec 审查 代码质量审查brainstorming Skill:从零开始新项目的头脑风暴,包括需求分析、平台选择、MVP 规划方案评估:自动提出 2-3 个实现方案,分析 trade-offs,推荐最优解

结果

能跑通。 多 Agent 调度、Skill 调用、代码生成和审查都能正常工作。这本身就说明 V4 的 Anthropic 兼容度做得到位——这些流程对 API 格式的要求是很严格的,差一点都跑不起来。

但也有明显的问题:

速度是瓶颈

一个代码审查 Agent 任务跑了 41 分钟。同样的任务用 Claude Opus 通常在 5-10 分钟内完成。V4-Pro 的推理速度还需要优化,尤其是在长上下文场景下。当然,这是预览版,后续应该会改善。

费用

整个测试过程的 API 费用:

模型

请求数

Token 用量

V4-Pro

145 次

805 万

V4-Flash

41 次

69.7 万

总费用:¥15.73

875 万 token,15 块钱。同等用量如果走 Claude Opus API,远不止这个价。价格差距接近 50 倍。

场景二:接入自有 Agent 框架

第二个场景是把 V4 接入我自己写的 Agent 框架,测试长链路任务。

之前国产模型在我的 Agent 里最大的问题就是长链路断裂。一个需要 10 步才能完成的任务,执行到第 5、6 步就开始丢上下文、忘记之前的决策、不遵循预设的流程规范。

V4 的表现让我意外:

长链路任务能完美执行

在多步骤的开发任务中,V4-Pro 能够稳定地维持上下文,按照预设的流程一步步推进。不会像之前的国产模型那样,跑着跑着就「忘了自己在干嘛」。指令遵循能力非常强,给出的流程规范基本都能严格执行。

这是 V4 最让我惊喜的地方。以前我一直认为长链路 Agent 任务是国产模型的硬伤,但 V4 在这个维度上确实跨了一大步。100 万 token 的上下文窗口加上更强的指令遵循能力,让它在实际的 Agent 场景中变得真正可用。

V4 的核心参数

快速过一下 V4 的关键数据:

V4-Pro

V4-Flash

总参数

1.6 万亿

2840 亿

激活参数

49B

13B

上下文

100 万 token

100 万 token

SWE-bench

80.6%

-

输入价格

$1.74/百万 token

$0.14/百万 token

输出价格

$3.48/百万 token

$0.28/百万 token

开源协议

MIT

MIT

MoE(混合专家)架构,V4-Pro 虽然总参数 1.6 万亿,但每次推理只激活 49B,效率很高。价格只有 Claude Opus 的六分之一左右。

总结:能用,但看场景

两个场景测下来,我的结论是:

V4 做对了什么

Anthropic API 兼容 — 能直接接入 Claude Code 生态,降低迁移成本长链路指令遵循 — 多步骤 Agent 任务不再断裂,这是之前国产模型的最大短板价格极低 — 同等用量只有 Claude 的 1/50,适合大量 Agent 调用100 万上下文 — 大型项目的长链路任务有足够的空间MIT 开源 — 可以本地部署,数据不出境

V4 还差什么

推理速度 — 复杂任务耗时是 Claude 的 4-8 倍,预览版的通病,等正式版优化代码质量上限 — 能完成任务,但代码的精细度和 Claude Opus 还有差距

适用建议

高价值、低容错的核心功能 → 继续用 Claude Opus大量重复性的 Agent 任务、代码审查、文档生成 → V4-Pro 性价比极高子 Agent / 辅助任务 → V4-Flash 几乎零成本数据安全敏感场景 → V4 开源本地部署

DeepSeek V4 不是来替代 Claude 的,但它给了我们一个真正可用的性价比方案。尤其是在 Agent 框架中,长链路任务终于不再是国产模型的禁区。

这是国产模型第一次让我在 Agent 场景里感到「能用」,而不是「凑合用」。

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
DeepSeek V4发布,万亿参数百万上下文,能否再次震撼AI行业..
今天DeepSeek V4上线并开源了权重文件,从技术报告上看相对V3系列有以下..
一文读懂DeepSeek V4:用27%的算力打赢100%的战争
快思慢想研究院院长 田丰一、开篇:一个让硅谷彻夜难眠的问题DeepSeek V4..
DeepSeek V4突然发布了,1.6万亿参数全开源,代码能力压过GPT-5.4..
没有发布会,没有预热海报,就这么静悄悄突然的来了。我赶快得用上,本篇..
DeepSeek V4正式上线!碾压一众大模型,普通人也能免费用上顶配AI..
#头条创作训练营#就在今天,AI圈炸锅了!国产硬核大模型DeepSeek V4全新..
DeepSeek V4深度解读:开源模型杀疯了的这一天,我看到了什么..
导语我叫老王,在科技圈写了多年文章,见过的发布不下百场。但2026年4月2..
DeepSeek V4重磅更新!万亿参数加持,开源模型直接封神..
#头条创作训练营#AI圈今天彻底沸腾了!憋了足足五个月,国产硬核大模型De..
ZPedia|一文读懂 DeepSeek V4:Agent 能力加冕开源新王,94%幻觉率是暗雷..
DeepSeek V4 的横空出世,再次搅动了全球开源大模型的格局。在 Artificia..
DeepSeek V4实测,终于搞懂了:它最牛的不是聪明,是“扛造”..
这两天,AI圈又被一个叫DeepSeek V4的家伙刷屏了。都说它多厉害多便宜,..
DeepSeekV4引爆国产算力,谁将成为中国的英伟达
来源:市场资讯(来源:泽平宏观展望)中国本土AI芯片企业在全球市场份额..
关于作者
快乐的老范..(普通会员)
文章
1909
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体105740

0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索