ChatGPT全面评估DeepSeek V4-工信会

> 自媒体 > （AI）人工智能 > ChatGPT全面评估DeepSeek V4

ChatGPT全面评估DeepSeek V4

来源：深度复盘

2026-04-30 11:30:04

管理

DeepSeek V4 的真正杀伤力，不是“绝对性能已经碾压 OpenAI / Claude / Gemini”，而是把“接近前沿闭源模型的文本、代码、推理能力”压到了极低价格，并且以开源权重和华为昇腾适配的方式，打穿了美国 AI 公司和英伟达在中国市场的部分护城河。

撰写：『深度复盘｜DeepFupan』｜ChatGPT｜图片AI生成

创作时间：2026年4月25日

我的判断：

行业定位：开源模型第一梯队，大概率是当前最强开源文本模型之一；闭源前沿阵营中，它还不是总冠军，但已进入“准前沿模型”区间。

最大优点：成本、1M 长上下文、代码与智能体任务、开源权重、国产算力适配。

最大缺点：预览版、文本单模态、独立评测仍不足、知识类任务仍落后 Gemini 3.1 Pro，复杂 agentic coding 仍不稳定，企业信任与生态不如 OpenAI / Anthropic / Google。

一、DeepSeek V4 到底是什么

DeepSeek 官方在 2026年4月24日发布 DeepSeek-V4 Preview，包括两个版本：

模型

总参数

激活参数

定位

DeepSeek-V4-Pro

1.6T

49B

高性能、复杂推理、代码、agent

DeepSeek-V4-Flash

284B

13B

低成本、高速度、日常任务

两者都支持 1M token 上下文，官方称 V4-Pro 在性能上“接近世界顶级闭源模型”，V4-Flash 主打快速、经济、低成本。官方还明确表示 API 已上线，支持 OpenAI Chat Completions 与 Anthropic API 格式，并且 deepseek-chat 与 deepseek-reasoner 将在 2026年7月24日后退役，现阶段已路由到 V4-Flash 的非思考与思考模式。

技术报告显示，V4-Pro 为 1.6T 总参数、49B 激活参数，V4-Flash 为 284B 总参数、13B 激活参数，均支持 100万 token 上下文；V4 采用混合注意力架构、CSA/HCA 压缩注意力、mHC 连接、Muon 优化器等设计，目标是把超长上下文的推理成本压下来。

二、性能优点：V4 的核心优势在哪里

1. 价格极具攻击性，直接打穿闭源模型 API 毛利

DeepSeek 官方价格页显示，V4-Flash 为 $0.14 / 1M 输入 token、$0.28 / 1M 输出 token；V4-Pro 原价为 $1.74 / 1M 输入 token、$3.48 / 1M 输出 token，并在 2026年5月5日前有 75% 限时折扣。

对比 OpenAI 官方价格，GPT-5.5 为 $5 / 1M 输入 token、$30 / 1M 输出 token；Anthropic 官方显示 Claude Opus 4.7 为 $5 / 1M 输入 token、$25 / 1M 输出 token。

这意味着：

模型

输入价格 / 1M token

输出价格 / 1M token

DeepSeek V4-Flash

$0.14

$0.28

DeepSeek V4-Pro 原价

$1.74

$3.48

GPT-5.5

$5.00

$30.00

Claude Opus 4.7

$5.00

$25.00

结论：V4-Pro 输出价格约为 GPT-5.5 的 11.6%，约为 Claude Opus 4.7 的 13.9%；V4-Flash 则是极低价模型。

这才是它对行业最尖锐的冲击。不是所有任务都赢，但只要在大量文本、代码、agent、客服、搜索总结、长文档处理上达到“够好”，它就会把闭源 API 的价格锚点向下拖。

2. 1M token 上下文是实用型突破，不只是宣传参数

V4 技术报告称，在 100万 token 场景下，V4-Pro 的单 token 推理 FLOPs 只有 V3.2 的 27%，KV cache 只有 V3.2 的 10%；V4-Flash 更低，单 token FLOPs 为 V3.2 的 10%，KV cache 为 7%。

这点很重要。过去很多模型也宣传长上下文，但真正瓶颈在成本、延迟、KV cache 和注意力计算。V4 的核心卖点不是“能塞 100万 token”，而是相对便宜地跑 100万 token。

适用场景包括：

场景

V4 的优势

大型代码库问答

可以一次放入更多 repo 上下文

长合同、招股书、研报分析

低成本处理超长文件

多轮 agent 工作流

更不容易丢失任务状态

企业内部知识库

低成本 RAG / agentic search

长推理链任务

更适合 test-time scaling

Reuters 也指出，V4 可处理 100万 token，并且用更少算力处理长文本；但其预览版是否能在真实开发者环境中稳定兑现，仍要等待独立测试。

3. 代码与 agentic coding 是 V4 最强的进攻方向

DeepSeek 官方称 V4-Pro 在 agentic coding benchmark 上达到开源 SOTA，并且已用于 DeepSeek 内部 agentic coding。

在官方技术报告的对比表中，V4-Pro-Max 的几个关键成绩如下：

Benchmark

DeepSeek V4-Pro-Max

对比

LiveCodeBench

93.5

高于 Gemini 3.1 Pro 91.7、Opus 4.6 88.8

Codeforces Rating

3206

高于 GPT-5.4 的 3168、Gemini 3.1 Pro 的 3052

SWE Verified

80.6

与 Gemini 3.1 Pro 80.6 持平，略低于 Opus 4.6 的 80.8

Terminal Bench 2.0

67.9

低于 GPT-5.4 75.1、略低于 Gemini 3.1 Pro 68.5，高于 Opus 4.6 65.4

SWE Pro

55.4

低于 GPT-5.4 57.7、Opus 4.6 57.3、Kimi K2.6 58.6、GLM-5.1 58.4

这些数据说明：**V4 的 coding 很强，但不是所有代码任务都第一。它在竞赛式代码、长上下文代码理解、部分 SWE Verified 上很强；但在更真实、更复杂、更工程化的 SWE Pro、Terminal Bench 上仍有差距。**

4. 开源权重是战略级优势

V4 是 open-weight 模型，DeepSeek 官方给出 Hugging Face 权重入口；Hugging Face 页面显示 V4-Pro 许可证为 MIT。

这意味着它对闭源模型有三类威胁：

第一，开发者可迁移。大量开发者、创业公司、研究团队可以下载、微调、量化、私有部署，减少对 OpenAI、Anthropic、Google API 的依赖。

第二，成本可控。大规模企业可以自建推理集群，API 费用不再完全受闭源厂商定价支配。

第三，生态会二次爆炸。社区会围绕 V4 做量化版、微调版、代码专用版、agent 专用版、私有知识库版。这种扩散速度通常比闭源模型快。

Simon Willison 评价称，V4-Pro 可能是新的最大开源权重模型，规模超过 Kimi K2.6、GLM-5.1，也超过 DeepSeek V3.2 两倍以上；他给出的标题是“almost on the frontier, a fraction of the price”。

三、性能弱点：V4 没有解决什么

1. 仍是 Preview，不能把官方跑分等同于真实生产力

Reuters 引用开发者观点称，V4 preview 看起来重要，但在独立评测和更多真实开发者测试出来之前，不应直接接受 benchmark headline。

这是关键。V4 当前最大不确定性在于：

问题

风险

官方自测占比高

可能存在评测口径、prompt、采样、工具链差异

预览版

稳定性、延迟、上下文管理、API 限流仍可能变化

Agent 框架依赖强

同一模型在不同 agent harness 下表现可能差很多

长上下文真实可用性

100万 token 不等于 100万 token 都能精准检索、推理、执行

企业合规

数据安全、审计、权限、部署支持仍弱于美国大厂

2. 文本单模态，不能替代 GPT、Claude、Gemini 的多模态体系

TechCrunch 指出，V4 Flash 和 V4 Pro 都只支持文本，不像许多闭源竞争对手那样支持图像、音频、视频理解与生成。

所以 V4 冲击最大的是：

文本推理、代码、长上下文、API 成本、开源部署。

冲击较小的是：

多模态理解、图像生成、视频生成、实时语音、AI 浏览器、Office / Workspace / OS 级集成。

这也是为什么 Gemini 和 OpenAI 的完整产品护城河仍然存在。

3. 知识类任务仍不是绝对第一

DeepSeek 自己在技术报告中承认，V4-Pro-Max 在世界知识与教育知识评测上虽大幅领先开源模型，但仍落后于 Gemini 3.1 Pro；其标准推理能力相对 GPT-5.4 和 Gemini 3.1 Pro 仍“略微落后”，大约落后前沿模型 3到6个月。

在官方表格中，几个知识类指标也能看出差距：

Benchmark

Gemini 3.1 Pro

GPT-5.4

Claude Opus 4.6

DeepSeek V4-Pro-Max

MMLU-Pro

91.0

87.5

89.1

87.5

SimpleQA-Verified

75.6

45.3

46.2

57.9

GPQA Diamond

94.3

93.0

91.3

90.1

HLE

44.4

39.8

40.0

37.7

**结论：V4 不是“知识最强模型”。它更像是“开源最强、成本极低、代码与长上下文极强”的模型。**

4. 本地部署门槛并不低

V4-Pro 虽然开源，但 1.6T 总参数不是普通个人机器能轻松运行。Simon Willison 提到，V4-Pro 在 Hugging Face 上约 865GB，V4-Flash 约 160GB。

这意味着：

V4-Flash 更可能成为开发者社区真正大规模折腾的对象。

V4-Pro 更适合云平台、企业私有化、推理服务商、国家级或大厂级算力平台。

四、行业排名：它到底排第几

1. 开源模型阵营：第一梯队，可能是综合第一

如果只看开源权重文本模型，DeepSeek V4-Pro-Max 已经进入最强候选，主要竞争者包括：

阵营

代表模型

DeepSeek

V4-Pro / V4-Flash

Moonshot

Kimi K2.6

Zhipu

GLM-5.1

Alibaba

Qwen 系列

Meta

Llama 系列

MiniMax

M 系列

从官方数据看，V4-Pro-Max 在多数知识、推理、代码 benchmark 上超过现有开源模型；Reuters 也报道 DeepSeek 称 V4-Pro 在世界知识 benchmark 上超过其他开源模型，仅落后 Gemini 3.1 Pro。

我的排序：

维度

V4 位置

开源综合能力

第一梯队，可能第一

开源代码能力

第一梯队，接近第一

开源长上下文

第一梯队，优势明显

开源中文写作

第一梯队，优势明显

开源多模态

不适用，V4 文本单模态

2. 全球闭源开源综合：准前沿，不是总冠军

把 OpenAI、Anthropic、Google 一起放进来，V4 更像是：

全球 Top 5 到 Top 8 级别的文本模型，某些代码与长上下文任务可冲 Top 3，但综合能力仍落后最强闭源模型。

原因很简单：

OpenAI 官方 GPT-5.5 发布页显示，GPT-5.5 在 Terminal-Bench 2.0 为 82.7%，SWE-Bench Pro 为 58.6%，BrowseComp 为 84.4%，Toolathlon 为 55.6%；这些指标里，V4-Pro-Max 的 Terminal Bench 2.0 为 67.9，SWE Pro 为 55.4，BrowseComp 为 83.4，Toolathlon 为 51.8。

所以结论要分层：

领域

V4 排名判断

开源文本模型

顶级，可能第一

代码竞赛

接近前沿，部分指标非常强

真实工程 agent

很强，但 GPT-5.5 / Claude Opus 4.7 仍有优势

世界知识

强于开源，落后 Gemini 3.1 Pro

长上下文成本效率

极强，行业最有冲击力之一

多模态

明显短板

企业产品生态

落后 OpenAI / Anthropic / Google

五、外界评价：市场如何看它

正面评价

1. “开源模型进一步逼近闭源前沿”

Reuters 报道称，V4 显示可自行运行的开放模型正在进一步缩小与闭源模型的差距，尤其在成本、长上下文和代码方面。

2. “中国 AI 自主化的重要一步”

Reuters 引用 Omdia 半导体研究负责人 He Hui 的观点称，华为昇腾是中国最好的英伟达国产替代方案，DeepSeek V4 能运行在中国硬件上，显示中国顶级 AI 模型已经可以跑在国产硬件上。

3. “几乎在前沿，价格只是零头”

Simon Willison 的评价非常准确：V4 几乎靠近前沿，但价格只是闭源前沿模型的一小部分。

负面评价与质疑

1. 独立评测不足

Reuters 引用开发者观点提醒，V4 preview 重要，但不应直接接受官方 benchmark headline，仍需独立评测和真实开发者测试。

2. 被质疑使用美国模型蒸馏

美国方面和部分 AI 公司对中国模型存在“工业化蒸馏”指控。PC Gamer 报道称，白宫备忘录指控中国实体大规模蒸馏美国前沿 AI 系统；文章也提到 Anthropic 曾指控 DeepSeek、Moonshot、MiniMax 对其模型进行工业级蒸馏攻击。中国驻美使馆则称相关指控是“纯粹诽谤”，并强调中国重视知识产权保护。

3. 数据隐私与政府禁用风险

Reuters 报道称，许多西方和亚洲政府机构已因数据隐私担忧禁止使用 DeepSeek。

这会限制 V4 在政府、金融、军工、医疗、跨国企业等高合规场景的渗透速度。

六、对英伟达的影响：不是需求崩塌，而是中国生态失守风险上升

截至最新交易数据，英伟达股价约 208.27美元，当日涨幅约 4.29%，说明 V4 发布后市场没有立刻重演 2025年 DeepSeek R1 式的英伟达暴跌。

但这不代表没有冲击。真正影响分三层。

1. 短期：对英伟达全球需求冲击有限

AI 训练、推理、数据中心扩张仍在继续。美国大模型、云厂商、企业 AI、机器人、自动驾驶、主权 AI 都还需要大量 GPU。Reuters 也提到，V4 发布当天英伟达股价仍上涨，原因包括英特尔业绩指引带来的芯片板块情绪改善。

所以短期不能说“V4 让英伟达没需求了”。

2. 中期：对英伟达中国市场是实质利空

Reuters 报道称，V4 与华为紧密合作，华为芯片参与了部分训练过程；这种合作与 DeepSeek 过去依赖英伟达 AI 芯片形成对比。

这才是重点。

过去英伟达的护城河不只是芯片性能，还有：

CUDA 生态开发者习惯框架适配推理优化云服务供给。

如果 DeepSeek V4 这种顶级模型能在华为昇腾上稳定运行，那么中国 AI 公司就有更强动机迁移到：

Ascend CANN 国产服务器国产网络国产模型生态。

这会削弱英伟达在中国的长期开发者生态。英伟达 CEO 黄仁勋此前也警告，美国出口管制和中国自力更生会让英伟达失去中国开发者生态；他甚至称 DeepSeek 如果首先运行在华为上，对美国是“糟糕结果”。

3. 长期：V4 对英伟达的最大威胁是“算法效率压缩算力溢价”

V4 把 1M 上下文的 FLOPs 和 KV cache 大幅压低，说明先进模型不只靠堆 GPU，也靠架构、稀疏化、压缩注意力、MoE、低精度和工程优化。

对英伟达的含义是：

影响方向

判断

全球 AI GPU 总需求

不会因 V4 立刻下降

中国区英伟达需求

中长期承压

CUDA 生态

在中国被 Ascend / CANN 挑战

GPU 单位算力溢价

被算法效率压缩

推理成本

趋势性下降

AI 应用总量

可能因便宜而扩大，形成 Jevons 效应

最终判断：V4 对英伟达不是“杀估值”，而是“杀中国生态确定性”。

七、对 OpenAI 的最大冲击

1. 价格锚被打穿

OpenAI GPT-5.5 官方 API 价格为 $5 输入、$30 输出；DeepSeek V4-Pro 原价为 $1.74 输入、$3.48 输出，V4-Flash 更低。

这会逼 OpenAI 面临三种压力：

第一，API 毛利压力。普通文本、总结、客服、代码解释、长文档任务会被低价模型分流。

第二，开源替代压力。企业会问：为什么不能用 V4 私有化部署，替代部分 GPT API？

第三，开发者心智压力。过去“最强模型 = 闭源美国模型”的叙事被进一步削弱。

2. 但 OpenAI 的护城河仍很深

OpenAI 不是只有模型 API。它还有：

护城河

DeepSeek V4 难以短期替代

ChatGPT 用户入口

全球消费级分发

Codex

编程产品形态与工作流

多模态

图像、语音、视觉、工具使用

企业合规

管理后台、安全、审计、团队协作

Agent 平台

端到端产品能力

品牌信任

美国企业采购优势

OpenAI 官方 GPT-5.5 发布页也强调，它已面向 ChatGPT、Codex、API 推出，并主打 coding、professional work、computer use、vision、tool use 等综合能力。

所以 V4 对 OpenAI 最大冲击不是“替代 ChatGPT”，而是压低 API 市场价格，并削弱 OpenAI 在文本推理和代码 API 上的垄断溢价。

八、对 Claude Code 的最大冲击

Claude Code 是 V4 最直接要打的产品之一。

原因有三点。

1. Claude Code 正处在用户信任波动期

Anthropic 4月23日官方承认，近期 Claude Code 质量问题来自三类产品层变化：默认 reasoning effort 从 high 改到 medium、缓存优化 bug 导致旧 thinking 被反复清掉、系统提示词压缩输出影响 coding quality；官方称这些问题已在 4月20日修复，并否认故意降智。

这给 V4 一个窗口：开发者最敏感的是代码质量、上下文保持、费用、限额、稳定性。Claude Code 一旦出现“变笨、限额紧、价格贵”的感知，替代模型就会迅速被测试。

2. V4 的 1M context 低价，非常适合代码 agent

DeepSeek 技术报告称，V4 在工具调用场景中会保留完整推理历史，帮助长周期 agent 任务维持累积的问题解决状态；V4 的 1M 上下文也被用于改善 interleaved thinking。

这正好切中 Claude Code 的核心场景：

Claude Code 核心需求

V4 对应能力

大 repo 上下文

1M token

长任务连续编辑

保留 reasoning / tool history

多轮调试

低价支撑更多 token

工程 agent

SWE Verified 80.6、Terminal Bench 67.9

私有部署

open weights

3. 但 V4 不等于 Claude Code 产品本身

Claude Code 的强项不只是模型，还包括 CLI、repo 操作、工具链、代码审查、工作流、企业集成、Anthropic 的产品调优。V4 可以成为 coding agent 的强后端，但它未必直接复制 Claude Code 的完整产品体验。

我的判断：V4 对 Claude Code 的最大冲击在“模型后端替代”和“价格压力”，不是立刻替代 Claude Code 这个产品。

如果未来 OpenCode、Aider、Cline、Cursor、Windsurf、企业内部 coding agent 都支持 V4-Pro / V4-Flash，那么 Anthropic 的 Claude Code API 与订阅定价会被迫重新证明其溢价。

九、对 Gemini 的最大冲击

1. V4 在知识、长上下文、中文写作上直接挑战 Gemini

DeepSeek 官方称 V4-Pro 在世界知识上领先当前开源模型，仅落后 Gemini 3.1 Pro；技术报告也显示，V4-Pro 在中文写作任务中相对 Gemini 3.1 Pro 有较高 win rate。

这对 Gemini 的压力主要是：

长文本处理不再是 Google 独有优势。

低成本 1M context 会削弱 Gemini Pro 的部分 API 竞争力。

中文、代码、企业长文档场景中，DeepSeek 会更具性价比。

2. 但 Gemini 仍保留多模态和 Google 生态优势

V4 当前是文本单模态，而 Gemini 的核心优势是：

Gemini 护城河

V4 当前短板

多模态输入输出

V4 文本单模态

Google Search grounding

V4 无 Google 原生搜索生态

Workspace 集成

V4 无 Gmail / Docs / Sheets 原生入口

Android / Chrome 分发

V4 无系统级入口

TPU 自研算力

V4 依赖外部生态

视频、图像、音频

V4 不覆盖

Google 官方 Gemini API 价格页也显示，Gemini 产品线覆盖文本、图像、视频、音频等不同输入类型，并有 grounding 与缓存计费等生态能力。

所以 V4 对 Gemini 最大冲击是“文本与代码 API 性价比”，不是多模态生态。

十、最终判断：DeepSeek V4 的行业意义

1. 它不是 R1 式的市场核弹，但战略含义更深

Fortune 判断，V4 对市场的即时影响可能不如此前 R1，但其窄化与美国领先模型的性能差距、极低价格，会继续质疑 OpenAI 和 Anthropic 的护城河。

我同意这个判断。

R1 的冲击是：“原来前沿推理可以这么便宜。”

V4 的冲击是：“原来接近前沿的 open-weight 代码、长上下文、agent 模型，可以在华为生态和极低价格下运行。”

前者冲击估值，后者冲击生态。

2. 它对各方冲击排序

被冲击方

冲击强度

核心原因

中国本土大模型公司

★★★★★

DeepSeek 重新确立开源与低价标杆

Anthropic Claude Code

★★★★☆

coding agent 与价格压力最大

OpenAI API

★★★★☆

文本、代码、长上下文 API 毛利承压

Gemini API

★★★☆☆

文本长上下文被冲击，多模态护城河仍在

Nvidia 中国生态

★★★★☆

昇腾适配削弱 CUDA 锁定

Nvidia 全球需求

★★☆☆☆

全球 AI capex 仍强，短期不构成需求崩塌

企业级闭源模型市场

★★★☆☆

会推动多模型混合、私有化、降本

3. 一句话定性

DeepSeek V4 是“开源阵营的准前沿模型”，不是闭源前沿的全面终结者；它真正可怕的地方，是用极低价格、1M 长上下文、代码 agent 能力和华为适配，把 AI 竞争从模型能力战推进到“成本战、生态战、主权算力战”。

接下来最值得盯的不是宣传口号，而是四个验证点：

第一，独立榜单是否确认 V4-Pro 的真实 coding / agent 能力。

第二，V4-Flash 是否能被社区量化到个人与中小企业可用。

第三，华为昇腾集群跑 V4 的吞吐、稳定性和成本是否接近英伟达。

第四，OpenAI、Anthropic、Google 是否被迫下调 API 价格或推出更强开源 / 半开源模型。

赏礼

赏钱

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

ChatGPT 靠不靠谱？正版安全无风险

1小时前

ChatGPT还在卷规模，Claude已经靠B端“闷声发大财”了？

1小时前