> 自媒体 > (AI)人工智能 > ChatGPT全面评估DeepSeek V4
ChatGPT全面评估DeepSeek V4
来源:深度复盘
2026-04-30 11:30:04
46
管理

DeepSeek V4 的真正杀伤力,不是“绝对性能已经碾压 OpenAI / Claude / Gemini”,而是把“接近前沿闭源模型的文本、代码、推理能力”压到了极低价格,并且以开源权重和华为昇腾适配的方式,打穿了美国 AI 公司和英伟达在中国市场的部分护城河。

撰写:『深度复盘|DeepFupan』|ChatGPT|图片AI生成

创作时间:2026年4月25日

我的判断:

行业定位:开源模型第一梯队,大概率是当前最强开源文本模型之一;闭源前沿阵营中,它还不是总冠军,但已进入“准前沿模型”区间。

最大优点:成本、1M 长上下文、代码与智能体任务、开源权重、国产算力适配。

最大缺点:预览版、文本单模态、独立评测仍不足、知识类任务仍落后 Gemini 3.1 Pro,复杂 agentic coding 仍不稳定,企业信任与生态不如 OpenAI / Anthropic / Google。

一、DeepSeek V4 到底是什么

DeepSeek 官方在 2026年4月24日发布 DeepSeek-V4 Preview,包括两个版本:

模型

总参数

激活参数

定位

DeepSeek-V4-Pro

1.6T

49B

高性能、复杂推理、代码、agent

DeepSeek-V4-Flash

284B

13B

低成本、高速度、日常任务

两者都支持 1M token 上下文,官方称 V4-Pro 在性能上“接近世界顶级闭源模型”,V4-Flash 主打快速、经济、低成本。官方还明确表示 API 已上线,支持 OpenAI Chat Completions 与 Anthropic API 格式,并且 deepseek-chat 与 deepseek-reasoner 将在 2026年7月24日后退役,现阶段已路由到 V4-Flash 的非思考与思考模式。

技术报告显示,V4-Pro 为 1.6T 总参数、49B 激活参数,V4-Flash 为 284B 总参数、13B 激活参数,均支持 100万 token 上下文;V4 采用混合注意力架构、CSA/HCA 压缩注意力、mHC 连接、Muon 优化器等设计,目标是把超长上下文的推理成本压下来。

二、性能优点:V4 的核心优势在哪里

1. 价格极具攻击性,直接打穿闭源模型 API 毛利

DeepSeek 官方价格页显示,V4-Flash 为 $0.14 / 1M 输入 token、$0.28 / 1M 输出 token;V4-Pro 原价为 $1.74 / 1M 输入 token、$3.48 / 1M 输出 token,并在 2026年5月5日前有 75% 限时折扣。

对比 OpenAI 官方价格,GPT-5.5 为 $5 / 1M 输入 token、$30 / 1M 输出 token;Anthropic 官方显示 Claude Opus 4.7 为 $5 / 1M 输入 token、$25 / 1M 输出 token。

这意味着:

模型

输入价格 / 1M token

输出价格 / 1M token

DeepSeek V4-Flash

$0.14

$0.28

DeepSeek V4-Pro 原价

$1.74

$3.48

GPT-5.5

$5.00

$30.00

Claude Opus 4.7

$5.00

$25.00

结论:V4-Pro 输出价格约为 GPT-5.5 的 11.6%,约为 Claude Opus 4.7 的 13.9%;V4-Flash 则是极低价模型。

这才是它对行业最尖锐的冲击。不是所有任务都赢,但只要在大量文本、代码、agent、客服、搜索总结、长文档处理上达到“够好”,它就会把闭源 API 的价格锚点向下拖。

2. 1M token 上下文是实用型突破,不只是宣传参数

V4 技术报告称,在 100万 token 场景下,V4-Pro 的单 token 推理 FLOPs 只有 V3.2 的 27%,KV cache 只有 V3.2 的 10%;V4-Flash 更低,单 token FLOPs 为 V3.2 的 10%,KV cache 为 7%。

这点很重要。过去很多模型也宣传长上下文,但真正瓶颈在成本、延迟、KV cache 和注意力计算。V4 的核心卖点不是“能塞 100万 token”,而是 相对便宜地跑 100万 token。

适用场景包括:

场景

V4 的优势

大型代码库问答

可以一次放入更多 repo 上下文

长合同、招股书、研报分析

低成本处理超长文件

多轮 agent 工作流

更不容易丢失任务状态

企业内部知识库

低成本 RAG / agentic search

长推理链任务

更适合 test-time scaling

Reuters 也指出,V4 可处理 100万 token,并且用更少算力处理长文本;但其预览版是否能在真实开发者环境中稳定兑现,仍要等待独立测试。

3. 代码与 agentic coding 是 V4 最强的进攻方向

DeepSeek 官方称 V4-Pro 在 agentic coding benchmark 上达到开源 SOTA,并且已用于 DeepSeek 内部 agentic coding。

在官方技术报告的对比表中,V4-Pro-Max 的几个关键成绩如下:

Benchmark

DeepSeek V4-Pro-Max

对比

LiveCodeBench

93.5

高于 Gemini 3.1 Pro 91.7、Opus 4.6 88.8

Codeforces Rating

3206

高于 GPT-5.4 的 3168、Gemini 3.1 Pro 的 3052

SWE Verified

80.6

与 Gemini 3.1 Pro 80.6 持平,略低于 Opus 4.6 的 80.8

Terminal Bench 2.0

67.9

低于 GPT-5.4 75.1、略低于 Gemini 3.1 Pro 68.5,高于 Opus 4.6 65.4

SWE Pro

55.4

低于 GPT-5.4 57.7、Opus 4.6 57.3、Kimi K2.6 58.6、GLM-5.1 58.4

这些数据说明:**V4 的 coding 很强,但不是所有代码任务都第一。它在竞赛式代码、长上下文代码理解、部分 SWE Verified 上很强;但在更真实、更复杂、更工程化的 SWE Pro、Terminal Bench 上仍有差距。**

4. 开源权重是战略级优势

V4 是 open-weight 模型,DeepSeek 官方给出 Hugging Face 权重入口;Hugging Face 页面显示 V4-Pro 许可证为 MIT。

这意味着它对闭源模型有三类威胁:

第一,开发者可迁移。 大量开发者、创业公司、研究团队可以下载、微调、量化、私有部署,减少对 OpenAI、Anthropic、Google API 的依赖。

第二,成本可控。 大规模企业可以自建推理集群,API 费用不再完全受闭源厂商定价支配。

第三,生态会二次爆炸。 社区会围绕 V4 做量化版、微调版、代码专用版、agent 专用版、私有知识库版。这种扩散速度通常比闭源模型快。

Simon Willison 评价称,V4-Pro 可能是新的最大开源权重模型,规模超过 Kimi K2.6、GLM-5.1,也超过 DeepSeek V3.2 两倍以上;他给出的标题是“almost on the frontier, a fraction of the price”。

三、性能弱点:V4 没有解决什么

1. 仍是 Preview,不能把官方跑分等同于真实生产力

Reuters 引用开发者观点称,V4 preview 看起来重要,但在独立评测和更多真实开发者测试出来之前,不应直接接受 benchmark headline。

这是关键。V4 当前最大不确定性在于:

问题

风险

官方自测占比高

可能存在评测口径、prompt、采样、工具链差异

预览版

稳定性、延迟、上下文管理、API 限流仍可能变化

Agent 框架依赖强

同一模型在不同 agent harness 下表现可能差很多

长上下文真实可用性

100万 token 不等于 100万 token 都能精准检索、推理、执行

企业合规

数据安全、审计、权限、部署支持仍弱于美国大厂

2. 文本单模态,不能替代 GPT、Claude、Gemini 的多模态体系

TechCrunch 指出,V4 Flash 和 V4 Pro 都只支持文本,不像许多闭源竞争对手那样支持图像、音频、视频理解与生成。

所以 V4 冲击最大的是:

文本推理、代码、长上下文、API 成本、开源部署。

冲击较小的是:

多模态理解、图像生成、视频生成、实时语音、AI 浏览器、Office / Workspace / OS 级集成。

这也是为什么 Gemini 和 OpenAI 的完整产品护城河仍然存在。

3. 知识类任务仍不是绝对第一

DeepSeek 自己在技术报告中承认,V4-Pro-Max 在世界知识与教育知识评测上虽大幅领先开源模型,但仍落后于 Gemini 3.1 Pro;其标准推理能力相对 GPT-5.4 和 Gemini 3.1 Pro 仍“略微落后”,大约落后前沿模型 3到6个月。

在官方表格中,几个知识类指标也能看出差距:

Benchmark

Gemini 3.1 Pro

GPT-5.4

Claude Opus 4.6

DeepSeek V4-Pro-Max

MMLU-Pro

91.0

87.5

89.1

87.5

SimpleQA-Verified

75.6

45.3

46.2

57.9

GPQA Diamond

94.3

93.0

91.3

90.1

HLE

44.4

39.8

40.0

37.7

**结论:V4 不是“知识最强模型”。它更像是“开源最强、成本极低、代码与长上下文极强”的模型。**

4. 本地部署门槛并不低

V4-Pro 虽然开源,但 1.6T 总参数不是普通个人机器能轻松运行。Simon Willison 提到,V4-Pro 在 Hugging Face 上约 865GB,V4-Flash 约 160GB。

这意味着:

V4-Flash 更可能成为开发者社区真正大规模折腾的对象。

V4-Pro 更适合云平台、企业私有化、推理服务商、国家级或大厂级算力平台。

四、行业排名:它到底排第几

1. 开源模型阵营:第一梯队,可能是综合第一

如果只看开源权重文本模型,DeepSeek V4-Pro-Max 已经进入最强候选,主要竞争者包括:

阵营

代表模型

DeepSeek

V4-Pro / V4-Flash

Moonshot

Kimi K2.6

Zhipu

GLM-5.1

Alibaba

Qwen 系列

Meta

Llama 系列

MiniMax

M 系列

从官方数据看,V4-Pro-Max 在多数知识、推理、代码 benchmark 上超过现有开源模型;Reuters 也报道 DeepSeek 称 V4-Pro 在世界知识 benchmark 上超过其他开源模型,仅落后 Gemini 3.1 Pro。

我的排序:

维度

V4 位置

开源综合能力

第一梯队,可能第一

开源代码能力

第一梯队,接近第一

开源长上下文

第一梯队,优势明显

开源中文写作

第一梯队,优势明显

开源多模态

不适用,V4 文本单模态

2. 全球闭源 开源综合:准前沿,不是总冠军

把 OpenAI、Anthropic、Google 一起放进来,V4 更像是:

全球 Top 5 到 Top 8 级别的文本模型,某些代码与长上下文任务可冲 Top 3,但综合能力仍落后最强闭源模型。

原因很简单:

OpenAI 官方 GPT-5.5 发布页显示,GPT-5.5 在 Terminal-Bench 2.0 为 82.7%,SWE-Bench Pro 为 58.6%,BrowseComp 为 84.4%,Toolathlon 为 55.6%;这些指标里,V4-Pro-Max 的 Terminal Bench 2.0 为 67.9,SWE Pro 为 55.4,BrowseComp 为 83.4,Toolathlon 为 51.8。

所以结论要分层:

领域

V4 排名判断

开源文本模型

顶级,可能第一

代码竞赛

接近前沿,部分指标非常强

真实工程 agent

很强,但 GPT-5.5 / Claude Opus 4.7 仍有优势

世界知识

强于开源,落后 Gemini 3.1 Pro

长上下文成本效率

极强,行业最有冲击力之一

多模态

明显短板

企业产品生态

落后 OpenAI / Anthropic / Google

五、外界评价:市场如何看它

正面评价

1. “开源模型进一步逼近闭源前沿”

Reuters 报道称,V4 显示可自行运行的开放模型正在进一步缩小与闭源模型的差距,尤其在成本、长上下文和代码方面。

2. “中国 AI 自主化的重要一步”

Reuters 引用 Omdia 半导体研究负责人 He Hui 的观点称,华为昇腾是中国最好的英伟达国产替代方案,DeepSeek V4 能运行在中国硬件上,显示中国顶级 AI 模型已经可以跑在国产硬件上。

3. “几乎在前沿,价格只是零头”

Simon Willison 的评价非常准确:V4 几乎靠近前沿,但价格只是闭源前沿模型的一小部分。

负面评价与质疑

1. 独立评测不足

Reuters 引用开发者观点提醒,V4 preview 重要,但不应直接接受官方 benchmark headline,仍需独立评测和真实开发者测试。

2. 被质疑使用美国模型蒸馏

美国方面和部分 AI 公司对中国模型存在“工业化蒸馏”指控。PC Gamer 报道称,白宫备忘录指控中国实体大规模蒸馏美国前沿 AI 系统;文章也提到 Anthropic 曾指控 DeepSeek、Moonshot、MiniMax 对其模型进行工业级蒸馏攻击。中国驻美使馆则称相关指控是“纯粹诽谤”,并强调中国重视知识产权保护。

3. 数据隐私与政府禁用风险

Reuters 报道称,许多西方和亚洲政府机构已因数据隐私担忧禁止使用 DeepSeek。

这会限制 V4 在政府、金融、军工、医疗、跨国企业等高合规场景的渗透速度。

六、对英伟达的影响:不是需求崩塌,而是中国生态失守风险上升

截至最新交易数据,英伟达股价约 208.27美元,当日涨幅约 4.29%,说明 V4 发布后市场没有立刻重演 2025年 DeepSeek R1 式的英伟达暴跌。

但这不代表没有冲击。真正影响分三层。

1. 短期:对英伟达全球需求冲击有限

AI 训练、推理、数据中心扩张仍在继续。美国大模型、云厂商、企业 AI、机器人、自动驾驶、主权 AI 都还需要大量 GPU。Reuters 也提到,V4 发布当天英伟达股价仍上涨,原因包括英特尔业绩指引带来的芯片板块情绪改善。

所以短期不能说“V4 让英伟达没需求了”。

2. 中期:对英伟达中国市场是实质利空

Reuters 报道称,V4 与华为紧密合作,华为芯片参与了部分训练过程;这种合作与 DeepSeek 过去依赖英伟达 AI 芯片形成对比。

这才是重点。

过去英伟达的护城河不只是芯片性能,还有:

CUDA 生态 开发者习惯 框架适配 推理优化 云服务供给。

如果 DeepSeek V4 这种顶级模型能在华为昇腾上稳定运行,那么中国 AI 公司就有更强动机迁移到:

Ascend CANN 国产服务器 国产网络 国产模型生态。

这会削弱英伟达在中国的长期开发者生态。英伟达 CEO 黄仁勋此前也警告,美国出口管制和中国自力更生会让英伟达失去中国开发者生态;他甚至称 DeepSeek 如果首先运行在华为上,对美国是“糟糕结果”。

3. 长期:V4 对英伟达的最大威胁是“算法效率压缩算力溢价”

V4 把 1M 上下文的 FLOPs 和 KV cache 大幅压低,说明先进模型不只靠堆 GPU,也靠架构、稀疏化、压缩注意力、MoE、低精度和工程优化。

对英伟达的含义是:

影响方向

判断

全球 AI GPU 总需求

不会因 V4 立刻下降

中国区英伟达需求

中长期承压

CUDA 生态

在中国被 Ascend / CANN 挑战

GPU 单位算力溢价

被算法效率压缩

推理成本

趋势性下降

AI 应用总量

可能因便宜而扩大,形成 Jevons 效应

最终判断:V4 对英伟达不是“杀估值”,而是“杀中国生态确定性”。

七、对 OpenAI 的最大冲击

1. 价格锚被打穿

OpenAI GPT-5.5 官方 API 价格为 $5 输入、$30 输出;DeepSeek V4-Pro 原价为 $1.74 输入、$3.48 输出,V4-Flash 更低。

这会逼 OpenAI 面临三种压力:

第一,API 毛利压力。 普通文本、总结、客服、代码解释、长文档任务会被低价模型分流。

第二,开源替代压力。 企业会问:为什么不能用 V4 私有化部署,替代部分 GPT API?

第三,开发者心智压力。 过去“最强模型 = 闭源美国模型”的叙事被进一步削弱。

2. 但 OpenAI 的护城河仍很深

OpenAI 不是只有模型 API。它还有:

护城河

DeepSeek V4 难以短期替代

ChatGPT 用户入口

全球消费级分发

Codex

编程产品形态与工作流

多模态

图像、语音、视觉、工具使用

企业合规

管理后台、安全、审计、团队协作

Agent 平台

端到端产品能力

品牌信任

美国企业采购优势

OpenAI 官方 GPT-5.5 发布页也强调,它已面向 ChatGPT、Codex、API 推出,并主打 coding、professional work、computer use、vision、tool use 等综合能力。

所以 V4 对 OpenAI 最大冲击不是“替代 ChatGPT”,而是压低 API 市场价格,并削弱 OpenAI 在文本推理和代码 API 上的垄断溢价。

八、对 Claude Code 的最大冲击

Claude Code 是 V4 最直接要打的产品之一。

原因有三点。

1. Claude Code 正处在用户信任波动期

Anthropic 4月23日官方承认,近期 Claude Code 质量问题来自三类产品层变化:默认 reasoning effort 从 high 改到 medium、缓存优化 bug 导致旧 thinking 被反复清掉、系统提示词压缩输出影响 coding quality;官方称这些问题已在 4月20日修复,并否认故意降智。

这给 V4 一个窗口:开发者最敏感的是 代码质量、上下文保持、费用、限额、稳定性。Claude Code 一旦出现“变笨、限额紧、价格贵”的感知,替代模型就会迅速被测试。

2. V4 的 1M context 低价,非常适合代码 agent

DeepSeek 技术报告称,V4 在工具调用场景中会保留完整推理历史,帮助长周期 agent 任务维持累积的问题解决状态;V4 的 1M 上下文也被用于改善 interleaved thinking。

这正好切中 Claude Code 的核心场景:

Claude Code 核心需求

V4 对应能力

大 repo 上下文

1M token

长任务连续编辑

保留 reasoning / tool history

多轮调试

低价支撑更多 token

工程 agent

SWE Verified 80.6、Terminal Bench 67.9

私有部署

open weights

3. 但 V4 不等于 Claude Code 产品本身

Claude Code 的强项不只是模型,还包括 CLI、repo 操作、工具链、代码审查、工作流、企业集成、Anthropic 的产品调优。V4 可以成为 coding agent 的强后端,但它未必直接复制 Claude Code 的完整产品体验。

我的判断:V4 对 Claude Code 的最大冲击在“模型后端替代”和“价格压力”,不是立刻替代 Claude Code 这个产品。

如果未来 OpenCode、Aider、Cline、Cursor、Windsurf、企业内部 coding agent 都支持 V4-Pro / V4-Flash,那么 Anthropic 的 Claude Code API 与订阅定价会被迫重新证明其溢价。

九、对 Gemini 的最大冲击

1. V4 在知识、长上下文、中文写作上直接挑战 Gemini

DeepSeek 官方称 V4-Pro 在世界知识上领先当前开源模型,仅落后 Gemini 3.1 Pro;技术报告也显示,V4-Pro 在中文写作任务中相对 Gemini 3.1 Pro 有较高 win rate。

这对 Gemini 的压力主要是:

长文本处理不再是 Google 独有优势。

低成本 1M context 会削弱 Gemini Pro 的部分 API 竞争力。

中文、代码、企业长文档场景中,DeepSeek 会更具性价比。

2. 但 Gemini 仍保留多模态和 Google 生态优势

V4 当前是文本单模态,而 Gemini 的核心优势是:

Gemini 护城河

V4 当前短板

多模态输入输出

V4 文本单模态

Google Search grounding

V4 无 Google 原生搜索生态

Workspace 集成

V4 无 Gmail / Docs / Sheets 原生入口

Android / Chrome 分发

V4 无系统级入口

TPU 自研算力

V4 依赖外部生态

视频、图像、音频

V4 不覆盖

Google 官方 Gemini API 价格页也显示,Gemini 产品线覆盖文本、图像、视频、音频等不同输入类型,并有 grounding 与缓存计费等生态能力。

所以 V4 对 Gemini 最大冲击是“文本与代码 API 性价比”,不是多模态生态。


十、最终判断:DeepSeek V4 的行业意义

1. 它不是 R1 式的市场核弹,但战略含义更深

Fortune 判断,V4 对市场的即时影响可能不如此前 R1,但其窄化与美国领先模型的性能差距、极低价格,会继续质疑 OpenAI 和 Anthropic 的护城河。

我同意这个判断。

R1 的冲击是:“原来前沿推理可以这么便宜。”

V4 的冲击是:“原来接近前沿的 open-weight 代码、长上下文、agent 模型,可以在华为生态和极低价格下运行。”

前者冲击估值,后者冲击生态。

2. 它对各方冲击排序

被冲击方

冲击强度

核心原因

中国本土大模型公司

★★★★★

DeepSeek 重新确立开源与低价标杆

Anthropic Claude Code

★★★★☆

coding agent 与价格压力最大

OpenAI API

★★★★☆

文本、代码、长上下文 API 毛利承压

Gemini API

★★★☆☆

文本长上下文被冲击,多模态护城河仍在

Nvidia 中国生态

★★★★☆

昇腾适配削弱 CUDA 锁定

Nvidia 全球需求

★★☆☆☆

全球 AI capex 仍强,短期不构成需求崩塌

企业级闭源模型市场

★★★☆☆

会推动多模型混合、私有化、降本

3. 一句话定性

DeepSeek V4 是“开源阵营的准前沿模型”,不是闭源前沿的全面终结者;它真正可怕的地方,是用极低价格、1M 长上下文、代码 agent 能力和华为适配,把 AI 竞争从模型能力战推进到“成本战、生态战、主权算力战”。

接下来最值得盯的不是宣传口号,而是四个验证点:

第一,独立榜单是否确认 V4-Pro 的真实 coding / agent 能力。

第二,V4-Flash 是否能被社区量化到个人与中小企业可用。

第三,华为昇腾集群跑 V4 的吞吐、稳定性和成本是否接近英伟达。

第四,OpenAI、Anthropic、Google 是否被迫下调 API 价格或推出更强开源 / 半开源模型。

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
关于作者
呼唤(普通会员)
文章
1925
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体105989

0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索