DeepSeek V4 的真正杀伤力,不是“绝对性能已经碾压 OpenAI / Claude / Gemini”,而是把“接近前沿闭源模型的文本、代码、推理能力”压到了极低价格,并且以开源权重和华为昇腾适配的方式,打穿了美国 AI 公司和英伟达在中国市场的部分护城河。
撰写:『深度复盘|DeepFupan』|ChatGPT|图片AI生成
创作时间:2026年4月25日

我的判断:
行业定位:开源模型第一梯队,大概率是当前最强开源文本模型之一;闭源前沿阵营中,它还不是总冠军,但已进入“准前沿模型”区间。
最大优点:成本、1M 长上下文、代码与智能体任务、开源权重、国产算力适配。
最大缺点:预览版、文本单模态、独立评测仍不足、知识类任务仍落后 Gemini 3.1 Pro,复杂 agentic coding 仍不稳定,企业信任与生态不如 OpenAI / Anthropic / Google。
一、DeepSeek V4 到底是什么DeepSeek 官方在 2026年4月24日发布 DeepSeek-V4 Preview,包括两个版本:
模型
总参数
激活参数
定位
DeepSeek-V4-Pro
1.6T
49B
高性能、复杂推理、代码、agent
DeepSeek-V4-Flash
284B
13B
低成本、高速度、日常任务
两者都支持 1M token 上下文,官方称 V4-Pro 在性能上“接近世界顶级闭源模型”,V4-Flash 主打快速、经济、低成本。官方还明确表示 API 已上线,支持 OpenAI Chat Completions 与 Anthropic API 格式,并且 deepseek-chat 与 deepseek-reasoner 将在 2026年7月24日后退役,现阶段已路由到 V4-Flash 的非思考与思考模式。
技术报告显示,V4-Pro 为 1.6T 总参数、49B 激活参数,V4-Flash 为 284B 总参数、13B 激活参数,均支持 100万 token 上下文;V4 采用混合注意力架构、CSA/HCA 压缩注意力、mHC 连接、Muon 优化器等设计,目标是把超长上下文的推理成本压下来。
二、性能优点:V4 的核心优势在哪里1. 价格极具攻击性,直接打穿闭源模型 API 毛利
DeepSeek 官方价格页显示,V4-Flash 为 $0.14 / 1M 输入 token、$0.28 / 1M 输出 token;V4-Pro 原价为 $1.74 / 1M 输入 token、$3.48 / 1M 输出 token,并在 2026年5月5日前有 75% 限时折扣。
对比 OpenAI 官方价格,GPT-5.5 为 $5 / 1M 输入 token、$30 / 1M 输出 token;Anthropic 官方显示 Claude Opus 4.7 为 $5 / 1M 输入 token、$25 / 1M 输出 token。
这意味着:
模型
输入价格 / 1M token
输出价格 / 1M token
DeepSeek V4-Flash
$0.14
$0.28
DeepSeek V4-Pro 原价
$1.74
$3.48
GPT-5.5
$5.00
$30.00
Claude Opus 4.7
$5.00
$25.00
结论:V4-Pro 输出价格约为 GPT-5.5 的 11.6%,约为 Claude Opus 4.7 的 13.9%;V4-Flash 则是极低价模型。
这才是它对行业最尖锐的冲击。不是所有任务都赢,但只要在大量文本、代码、agent、客服、搜索总结、长文档处理上达到“够好”,它就会把闭源 API 的价格锚点向下拖。
2. 1M token 上下文是实用型突破,不只是宣传参数
V4 技术报告称,在 100万 token 场景下,V4-Pro 的单 token 推理 FLOPs 只有 V3.2 的 27%,KV cache 只有 V3.2 的 10%;V4-Flash 更低,单 token FLOPs 为 V3.2 的 10%,KV cache 为 7%。
这点很重要。过去很多模型也宣传长上下文,但真正瓶颈在成本、延迟、KV cache 和注意力计算。V4 的核心卖点不是“能塞 100万 token”,而是 相对便宜地跑 100万 token。
适用场景包括:
场景
V4 的优势
大型代码库问答
可以一次放入更多 repo 上下文
长合同、招股书、研报分析
低成本处理超长文件
多轮 agent 工作流
更不容易丢失任务状态
企业内部知识库
低成本 RAG / agentic search
长推理链任务
更适合 test-time scaling
Reuters 也指出,V4 可处理 100万 token,并且用更少算力处理长文本;但其预览版是否能在真实开发者环境中稳定兑现,仍要等待独立测试。
3. 代码与 agentic coding 是 V4 最强的进攻方向
DeepSeek 官方称 V4-Pro 在 agentic coding benchmark 上达到开源 SOTA,并且已用于 DeepSeek 内部 agentic coding。
在官方技术报告的对比表中,V4-Pro-Max 的几个关键成绩如下:
Benchmark
DeepSeek V4-Pro-Max
对比
LiveCodeBench
93.5
高于 Gemini 3.1 Pro 91.7、Opus 4.6 88.8
Codeforces Rating
3206
高于 GPT-5.4 的 3168、Gemini 3.1 Pro 的 3052
SWE Verified
80.6
与 Gemini 3.1 Pro 80.6 持平,略低于 Opus 4.6 的 80.8
Terminal Bench 2.0
67.9
低于 GPT-5.4 75.1、略低于 Gemini 3.1 Pro 68.5,高于 Opus 4.6 65.4
SWE Pro
55.4
低于 GPT-5.4 57.7、Opus 4.6 57.3、Kimi K2.6 58.6、GLM-5.1 58.4
这些数据说明:**V4 的 coding 很强,但不是所有代码任务都第一。它在竞赛式代码、长上下文代码理解、部分 SWE Verified 上很强;但在更真实、更复杂、更工程化的 SWE Pro、Terminal Bench 上仍有差距。**
4. 开源权重是战略级优势
V4 是 open-weight 模型,DeepSeek 官方给出 Hugging Face 权重入口;Hugging Face 页面显示 V4-Pro 许可证为 MIT。
这意味着它对闭源模型有三类威胁:
第一,开发者可迁移。 大量开发者、创业公司、研究团队可以下载、微调、量化、私有部署,减少对 OpenAI、Anthropic、Google API 的依赖。
第二,成本可控。 大规模企业可以自建推理集群,API 费用不再完全受闭源厂商定价支配。
第三,生态会二次爆炸。 社区会围绕 V4 做量化版、微调版、代码专用版、agent 专用版、私有知识库版。这种扩散速度通常比闭源模型快。
Simon Willison 评价称,V4-Pro 可能是新的最大开源权重模型,规模超过 Kimi K2.6、GLM-5.1,也超过 DeepSeek V3.2 两倍以上;他给出的标题是“almost on the frontier, a fraction of the price”。
三、性能弱点:V4 没有解决什么1. 仍是 Preview,不能把官方跑分等同于真实生产力
Reuters 引用开发者观点称,V4 preview 看起来重要,但在独立评测和更多真实开发者测试出来之前,不应直接接受 benchmark headline。
这是关键。V4 当前最大不确定性在于:
问题
风险
官方自测占比高
可能存在评测口径、prompt、采样、工具链差异
预览版
稳定性、延迟、上下文管理、API 限流仍可能变化
Agent 框架依赖强
同一模型在不同 agent harness 下表现可能差很多
长上下文真实可用性
100万 token 不等于 100万 token 都能精准检索、推理、执行
企业合规
数据安全、审计、权限、部署支持仍弱于美国大厂
2. 文本单模态,不能替代 GPT、Claude、Gemini 的多模态体系
TechCrunch 指出,V4 Flash 和 V4 Pro 都只支持文本,不像许多闭源竞争对手那样支持图像、音频、视频理解与生成。
所以 V4 冲击最大的是:
文本推理、代码、长上下文、API 成本、开源部署。
冲击较小的是:
多模态理解、图像生成、视频生成、实时语音、AI 浏览器、Office / Workspace / OS 级集成。
这也是为什么 Gemini 和 OpenAI 的完整产品护城河仍然存在。
3. 知识类任务仍不是绝对第一
DeepSeek 自己在技术报告中承认,V4-Pro-Max 在世界知识与教育知识评测上虽大幅领先开源模型,但仍落后于 Gemini 3.1 Pro;其标准推理能力相对 GPT-5.4 和 Gemini 3.1 Pro 仍“略微落后”,大约落后前沿模型 3到6个月。
在官方表格中,几个知识类指标也能看出差距:
Benchmark
Gemini 3.1 Pro
GPT-5.4
Claude Opus 4.6
DeepSeek V4-Pro-Max
MMLU-Pro
91.0
87.5
89.1
87.5
SimpleQA-Verified
75.6
45.3
46.2
57.9
GPQA Diamond
94.3
93.0
91.3
90.1
HLE
44.4
39.8
40.0
37.7
**结论:V4 不是“知识最强模型”。它更像是“开源最强、成本极低、代码与长上下文极强”的模型。**
4. 本地部署门槛并不低
V4-Pro 虽然开源,但 1.6T 总参数不是普通个人机器能轻松运行。Simon Willison 提到,V4-Pro 在 Hugging Face 上约 865GB,V4-Flash 约 160GB。
这意味着:
V4-Flash 更可能成为开发者社区真正大规模折腾的对象。
V4-Pro 更适合云平台、企业私有化、推理服务商、国家级或大厂级算力平台。
四、行业排名:它到底排第几1. 开源模型阵营:第一梯队,可能是综合第一
如果只看开源权重文本模型,DeepSeek V4-Pro-Max 已经进入最强候选,主要竞争者包括:
阵营
代表模型
DeepSeek
V4-Pro / V4-Flash
Moonshot
Kimi K2.6
Zhipu
GLM-5.1
Alibaba
Qwen 系列
Meta
Llama 系列
MiniMax
M 系列
从官方数据看,V4-Pro-Max 在多数知识、推理、代码 benchmark 上超过现有开源模型;Reuters 也报道 DeepSeek 称 V4-Pro 在世界知识 benchmark 上超过其他开源模型,仅落后 Gemini 3.1 Pro。
我的排序:
维度
V4 位置
开源综合能力
第一梯队,可能第一
开源代码能力
第一梯队,接近第一
开源长上下文
第一梯队,优势明显
开源中文写作
第一梯队,优势明显
开源多模态
不适用,V4 文本单模态
2. 全球闭源 开源综合:准前沿,不是总冠军
把 OpenAI、Anthropic、Google 一起放进来,V4 更像是:
全球 Top 5 到 Top 8 级别的文本模型,某些代码与长上下文任务可冲 Top 3,但综合能力仍落后最强闭源模型。
原因很简单:
OpenAI 官方 GPT-5.5 发布页显示,GPT-5.5 在 Terminal-Bench 2.0 为 82.7%,SWE-Bench Pro 为 58.6%,BrowseComp 为 84.4%,Toolathlon 为 55.6%;这些指标里,V4-Pro-Max 的 Terminal Bench 2.0 为 67.9,SWE Pro 为 55.4,BrowseComp 为 83.4,Toolathlon 为 51.8。
所以结论要分层:
领域
V4 排名判断
开源文本模型
顶级,可能第一
代码竞赛
接近前沿,部分指标非常强
真实工程 agent
很强,但 GPT-5.5 / Claude Opus 4.7 仍有优势
世界知识
强于开源,落后 Gemini 3.1 Pro
长上下文成本效率
极强,行业最有冲击力之一
多模态
明显短板
企业产品生态
落后 OpenAI / Anthropic / Google
五、外界评价:市场如何看它正面评价
1. “开源模型进一步逼近闭源前沿”
Reuters 报道称,V4 显示可自行运行的开放模型正在进一步缩小与闭源模型的差距,尤其在成本、长上下文和代码方面。
2. “中国 AI 自主化的重要一步”
Reuters 引用 Omdia 半导体研究负责人 He Hui 的观点称,华为昇腾是中国最好的英伟达国产替代方案,DeepSeek V4 能运行在中国硬件上,显示中国顶级 AI 模型已经可以跑在国产硬件上。
3. “几乎在前沿,价格只是零头”
Simon Willison 的评价非常准确:V4 几乎靠近前沿,但价格只是闭源前沿模型的一小部分。
负面评价与质疑
1. 独立评测不足
Reuters 引用开发者观点提醒,V4 preview 重要,但不应直接接受官方 benchmark headline,仍需独立评测和真实开发者测试。
2. 被质疑使用美国模型蒸馏
美国方面和部分 AI 公司对中国模型存在“工业化蒸馏”指控。PC Gamer 报道称,白宫备忘录指控中国实体大规模蒸馏美国前沿 AI 系统;文章也提到 Anthropic 曾指控 DeepSeek、Moonshot、MiniMax 对其模型进行工业级蒸馏攻击。中国驻美使馆则称相关指控是“纯粹诽谤”,并强调中国重视知识产权保护。
3. 数据隐私与政府禁用风险
Reuters 报道称,许多西方和亚洲政府机构已因数据隐私担忧禁止使用 DeepSeek。
这会限制 V4 在政府、金融、军工、医疗、跨国企业等高合规场景的渗透速度。
六、对英伟达的影响:不是需求崩塌,而是中国生态失守风险上升截至最新交易数据,英伟达股价约 208.27美元,当日涨幅约 4.29%,说明 V4 发布后市场没有立刻重演 2025年 DeepSeek R1 式的英伟达暴跌。
但这不代表没有冲击。真正影响分三层。
1. 短期:对英伟达全球需求冲击有限
AI 训练、推理、数据中心扩张仍在继续。美国大模型、云厂商、企业 AI、机器人、自动驾驶、主权 AI 都还需要大量 GPU。Reuters 也提到,V4 发布当天英伟达股价仍上涨,原因包括英特尔业绩指引带来的芯片板块情绪改善。
所以短期不能说“V4 让英伟达没需求了”。
2. 中期:对英伟达中国市场是实质利空
Reuters 报道称,V4 与华为紧密合作,华为芯片参与了部分训练过程;这种合作与 DeepSeek 过去依赖英伟达 AI 芯片形成对比。
这才是重点。
过去英伟达的护城河不只是芯片性能,还有:
CUDA 生态 开发者习惯 框架适配 推理优化 云服务供给。
如果 DeepSeek V4 这种顶级模型能在华为昇腾上稳定运行,那么中国 AI 公司就有更强动机迁移到:
Ascend CANN 国产服务器 国产网络 国产模型生态。
这会削弱英伟达在中国的长期开发者生态。英伟达 CEO 黄仁勋此前也警告,美国出口管制和中国自力更生会让英伟达失去中国开发者生态;他甚至称 DeepSeek 如果首先运行在华为上,对美国是“糟糕结果”。
3. 长期:V4 对英伟达的最大威胁是“算法效率压缩算力溢价”
V4 把 1M 上下文的 FLOPs 和 KV cache 大幅压低,说明先进模型不只靠堆 GPU,也靠架构、稀疏化、压缩注意力、MoE、低精度和工程优化。
对英伟达的含义是:
影响方向
判断
全球 AI GPU 总需求
不会因 V4 立刻下降
中国区英伟达需求
中长期承压
CUDA 生态
在中国被 Ascend / CANN 挑战
GPU 单位算力溢价
被算法效率压缩
推理成本
趋势性下降
AI 应用总量
可能因便宜而扩大,形成 Jevons 效应
最终判断:V4 对英伟达不是“杀估值”,而是“杀中国生态确定性”。
七、对 OpenAI 的最大冲击1. 价格锚被打穿
OpenAI GPT-5.5 官方 API 价格为 $5 输入、$30 输出;DeepSeek V4-Pro 原价为 $1.74 输入、$3.48 输出,V4-Flash 更低。
这会逼 OpenAI 面临三种压力:
第一,API 毛利压力。 普通文本、总结、客服、代码解释、长文档任务会被低价模型分流。
第二,开源替代压力。 企业会问:为什么不能用 V4 私有化部署,替代部分 GPT API?
第三,开发者心智压力。 过去“最强模型 = 闭源美国模型”的叙事被进一步削弱。
2. 但 OpenAI 的护城河仍很深
OpenAI 不是只有模型 API。它还有:
护城河
DeepSeek V4 难以短期替代
ChatGPT 用户入口
全球消费级分发
Codex
编程产品形态与工作流
多模态
图像、语音、视觉、工具使用
企业合规
管理后台、安全、审计、团队协作
Agent 平台
端到端产品能力
品牌信任
美国企业采购优势
OpenAI 官方 GPT-5.5 发布页也强调,它已面向 ChatGPT、Codex、API 推出,并主打 coding、professional work、computer use、vision、tool use 等综合能力。
所以 V4 对 OpenAI 最大冲击不是“替代 ChatGPT”,而是压低 API 市场价格,并削弱 OpenAI 在文本推理和代码 API 上的垄断溢价。
八、对 Claude Code 的最大冲击Claude Code 是 V4 最直接要打的产品之一。
原因有三点。
1. Claude Code 正处在用户信任波动期
Anthropic 4月23日官方承认,近期 Claude Code 质量问题来自三类产品层变化:默认 reasoning effort 从 high 改到 medium、缓存优化 bug 导致旧 thinking 被反复清掉、系统提示词压缩输出影响 coding quality;官方称这些问题已在 4月20日修复,并否认故意降智。
这给 V4 一个窗口:开发者最敏感的是 代码质量、上下文保持、费用、限额、稳定性。Claude Code 一旦出现“变笨、限额紧、价格贵”的感知,替代模型就会迅速被测试。
2. V4 的 1M context 低价,非常适合代码 agent
DeepSeek 技术报告称,V4 在工具调用场景中会保留完整推理历史,帮助长周期 agent 任务维持累积的问题解决状态;V4 的 1M 上下文也被用于改善 interleaved thinking。
这正好切中 Claude Code 的核心场景:
Claude Code 核心需求
V4 对应能力
大 repo 上下文
1M token
长任务连续编辑
保留 reasoning / tool history
多轮调试
低价支撑更多 token
工程 agent
SWE Verified 80.6、Terminal Bench 67.9
私有部署
open weights
3. 但 V4 不等于 Claude Code 产品本身
Claude Code 的强项不只是模型,还包括 CLI、repo 操作、工具链、代码审查、工作流、企业集成、Anthropic 的产品调优。V4 可以成为 coding agent 的强后端,但它未必直接复制 Claude Code 的完整产品体验。
我的判断:V4 对 Claude Code 的最大冲击在“模型后端替代”和“价格压力”,不是立刻替代 Claude Code 这个产品。
如果未来 OpenCode、Aider、Cline、Cursor、Windsurf、企业内部 coding agent 都支持 V4-Pro / V4-Flash,那么 Anthropic 的 Claude Code API 与订阅定价会被迫重新证明其溢价。
九、对 Gemini 的最大冲击1. V4 在知识、长上下文、中文写作上直接挑战 Gemini
DeepSeek 官方称 V4-Pro 在世界知识上领先当前开源模型,仅落后 Gemini 3.1 Pro;技术报告也显示,V4-Pro 在中文写作任务中相对 Gemini 3.1 Pro 有较高 win rate。
这对 Gemini 的压力主要是:
长文本处理不再是 Google 独有优势。
低成本 1M context 会削弱 Gemini Pro 的部分 API 竞争力。
中文、代码、企业长文档场景中,DeepSeek 会更具性价比。
2. 但 Gemini 仍保留多模态和 Google 生态优势
V4 当前是文本单模态,而 Gemini 的核心优势是:
Gemini 护城河
V4 当前短板
多模态输入输出
V4 文本单模态
Google Search grounding
V4 无 Google 原生搜索生态
Workspace 集成
V4 无 Gmail / Docs / Sheets 原生入口
Android / Chrome 分发
V4 无系统级入口
TPU 自研算力
V4 依赖外部生态
视频、图像、音频
V4 不覆盖
Google 官方 Gemini API 价格页也显示,Gemini 产品线覆盖文本、图像、视频、音频等不同输入类型,并有 grounding 与缓存计费等生态能力。
所以 V4 对 Gemini 最大冲击是“文本与代码 API 性价比”,不是多模态生态。

1. 它不是 R1 式的市场核弹,但战略含义更深
Fortune 判断,V4 对市场的即时影响可能不如此前 R1,但其窄化与美国领先模型的性能差距、极低价格,会继续质疑 OpenAI 和 Anthropic 的护城河。
我同意这个判断。
R1 的冲击是:“原来前沿推理可以这么便宜。”
V4 的冲击是:“原来接近前沿的 open-weight 代码、长上下文、agent 模型,可以在华为生态和极低价格下运行。”
前者冲击估值,后者冲击生态。
2. 它对各方冲击排序
被冲击方
冲击强度
核心原因
中国本土大模型公司
★★★★★
DeepSeek 重新确立开源与低价标杆
Anthropic Claude Code
★★★★☆
coding agent 与价格压力最大
OpenAI API
★★★★☆
文本、代码、长上下文 API 毛利承压
Gemini API
★★★☆☆
文本长上下文被冲击,多模态护城河仍在
Nvidia 中国生态
★★★★☆
昇腾适配削弱 CUDA 锁定
Nvidia 全球需求
★★☆☆☆
全球 AI capex 仍强,短期不构成需求崩塌
企业级闭源模型市场
★★★☆☆
会推动多模型混合、私有化、降本
3. 一句话定性
DeepSeek V4 是“开源阵营的准前沿模型”,不是闭源前沿的全面终结者;它真正可怕的地方,是用极低价格、1M 长上下文、代码 agent 能力和华为适配,把 AI 竞争从模型能力战推进到“成本战、生态战、主权算力战”。
接下来最值得盯的不是宣传口号,而是四个验证点:
第一,独立榜单是否确认 V4-Pro 的真实 coding / agent 能力。
第二,V4-Flash 是否能被社区量化到个人与中小企业可用。
第三,华为昇腾集群跑 V4 的吞吐、稳定性和成本是否接近英伟达。
第四,OpenAI、Anthropic、Google 是否被迫下调 API 价格或推出更强开源 / 半开源模型。
相关文章









猜你喜欢
成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体105989