定了，DeepSeek V4首发华为芯片！国产AI开始打破英伟达「垄断」-工信会

> 自媒体 > （AI）人工智能 > 定了，DeepSeek V4首发华为芯片！国产AI开始打破英伟达「垄断」

定了，DeepSeek V4首发华为芯片！国产AI开始打破英伟达「垄断」

来源：爱范儿

2026-04-28 16:01:34

管理

一上来就是王炸级别，而且双双标配百万 token 上下文：

参数量达 1.6T 的 DeepSeek-V4-Pro（49B 激活参数）284B 参数的 DeepSeek-V4-Flash（13B 激活参数）

即日起可在官网 chat.deepseek.com 或官方 App 体验，API 服务同步上线。

DeepSeek V4 登场，Agent 玩家迎来大狂欢

Agent 能力是此次升级最核心的方向。

V4-Pro 已在 DeepSeek 内部作为 Agentic Coding 工具日常使用。

员工的实测反馈是：用起来比 Sonnet 4.5 顺手，交付质量接近 Opus 4.6 非思考模式，和 Opus 4.6 思考模式相比还有差距。

官方内部 R&D 编程基准测试也给出了类似的定位，约 200 个来自 50 余位工程师的真实工作任务里，V4-Pro-Max 的 Pass Rate 是 67%，Sonnet 4.5 是 47%，Opus 4.5 Thinking 是 73%，Opus 4.6 Thinking 是 80%。

参与内部调研的 85 名有使用经验的开发者和研究人员中，超过九成认为 V4-Pro 已经可以作为首选或接近首选的编程模型。

模型已针对 Claude Code、OpenClaw、OpenCode、CodeBuddy 等主流 Agent 产品进行专项适配，代码任务与文档生成均有提升。

工具调用方面，V4 系列引入了新的 XML 格式 tool-call schema，以「|DSML|」特殊 token 划定调用边界。官方表示这一设计有效减少了转义失败和工具调用错误，比上一代更可靠。

知识与推理层面，V4-Pro 在世界知识测评中大幅领先其他开源模型。

SimpleQA-Verified 得分 57.9，比最接近的开源竞争者高出约 20 个百分点，只是略逊于 Gemini-3.1-Pro 的 75.6。数学、STEM、竞赛代码三项超越全部已公开评测的开源模型，达到顶级闭源模型水准。

基座模型层面，V4-Pro-Base 在 MMLU 5-shot、MMLU-Pro 5-shot、Simple-QA Verified 25-shot、LongBench-V2 长文本评测上的得分分别为 90.1、73.5、55.2、51.5，全面大幅领先参数量相近的 V3.2-Base（对应分别是 87.8、65.5、28.3、40.2）。

值得一提的是，参数量更小的 V4-Flash-Base 在多数基准测试中同样超越了 V3.2-Base，说明架构层面的改进本身带来了相当可观的效率提升。

指令模型的横向对比里，V4-Pro Max 的 LiveCodeBench Pass@1 达到 93.5，Codeforces Rating 达到 3206，均为参测模型中最高。

日常任务用 Flash，遇到硬骨头开 Think Max，性价比很高。

模式之间的性能落差远比版本之间的落差大。以 V4-Pro 为例，HLE Pass@1 从非思考模式的 7.7 提升至 Max 模式的 37.7，Apex Pass@1 从 0.4 提升至 38.3，BrowseComp Pass@1 从无法评测跃升至 83.4。对于复杂任务，选对思考强度，比纠结选哪个版本要重要得多。

两款模型均支持三种推理强度，可通过 reasoning_effort 参数切换。

非思考模式响应速度快，适合日常轻量任务；Think High 开启显式逻辑推理，适合复杂问题与规划；Think Max 推理能力拉满，适合探索模型上限，官方建议上下文窗口至少设置为 384K token，复杂 Agent 场景则直接设成 max。

Think Max 模式下还有一段额外注入到系统提示开头的指令，要求模型「以绝对最大力度推理，不允许走捷径」，并强制要求把每一步推理、每一个被否定的假设都显式写出来。

这种设计的效果从数据上看相当明显，也解释了为什么同一个模型在不同模式下的表现差距如此之大。

百万长上下文，榨干每一个 token

百万 token 上下文有不少模型都在宣传，但撑起这个规模的工程代价是完全不一样的。

DeepSeek V4 在架构层面做了比较大的调整。注意力机制是这次改动的核心。传统的注意力计算量随序列长度平方增长，上下文一长就成了最主要的计算瓶颈。

官方表示，百万上下文从现在起将是 DeepSeek 所有官方服务的标配。

真·就长长长长长长长长。

除注意力机制外，V4 还引入了流形约束超连接（mHC）来强化残差连接。

传统残差连接把层与层之间的信号直接相加，而 mHC 把残差流的宽度扩展若干倍，再通过三组可学习的线性映射动态控制信号的混合方式。

负责残差变换的矩阵被约束在双随机矩阵集合上，保证谱范数不超过 1，让跨层信号传播更加稳定。

训练层面采用 Muon 优化器，通过迭代正交化梯度矩阵来更新参数，加快收敛速度并提升稳定性，和 AdamW 混用：大多数模块用 Muon，嵌入层、预测头、RMSNorm 权重仍用 AdamW。

训练过程中遇到了 loss spike 问题。

DeepSeek 摸索出两个有效手段。第一个叫「预期性路由」，在第 t 步训练时用第 t-Δt 步的旧参数计算路由索引，把骨干网络和路由网络的更新解耦，打破两者之间的恶性循环。

第二个是对 SwiGLU 激活函数的线性分量做截断，把数值范围钳制在 [-10, 10] 以内，直接压制异常值的出现。补货，两种方法目前只知道有效，机理还不够清晰，DeepSeek 在论文中坦承这个问题留待后续研究。

API 接入方面，V4-Pro 与 V4-Flash 已同步上线，同时支持 OpenAI ChatCompletions 接口与 Anthropic 接口。价格如上，调用时 base_url 不变，model 参数改为 deepseek-v4-pro 或 deepseek-v4-flash 即可。

旧接口名称 deepseek-chat 与 deepseek-reasoner 将于三个月后（2026 年 7 月 24 日）停止使用，当前阶段两者分别指向 V4-Flash 的非思考模式与思考模式，开发者需在截止日期前完成迁移。看来这个周末有得忙了。

除了技术架构，DeepSeek V4 这次一个更值得关注的变化，是英伟达不再是唯一选项。

也就是说， DeepSeek 没有给英伟达或 AMD 提前优化适配的机会，而是把早期访问权限独家开放给了国产芯片厂商。这意味着，国产模型在「去英伟达化」迈出了重要的一步。

图片 DeepSeek 选择在 V4 这个节点上做这件事，时机很精准。

V4 的性能已经比肩顶级闭源模型，如果它只能跑在英伟达芯片上，那「国产最强开源模型」这个标签总显得差一口气。现在它跑通了昇腾，这个叙事也有所完整：算法是自己的，代码是开源的，芯片是国产的。

巧合的是，黄仁勋最近就在与科技播客 Dwarkesh Patel 的访谈节目中表示，DeepSeek不是一个无足轻重的进展。

他还假设了一个情况，那就是 DeepSeek 新模型在华为平台上首发，黄仁勋表示这一天对美国来说将是一个可怕的结果，因为这意味着 AI 模型被优化为在中国 AI 硬件上表现最佳，而这些模型扩散到全球之后，就会推动中国技术成为世界标准。

DeepSeek 用万亿参数级别的模型验证了昇腾可以承载顶级大模型的推理，这对整个国产算力生态是一针强心剂。国内大厂本就在加大昇腾芯片的采购力度，V4 的成功适配让这个决策有了更充分的技术背书。寒武纪、海光信息等其他国产芯片厂商也会被倒逼着加速自己的大模型适配进度。

一个顶级开源模型的芯片选择，正在撬动一整条产业链的洗牌。

DeepSeek-V4 模型开源链接：

https://huggingface.co/collections/deepseek-ai/deepseek-v4

https://modelscope.cn/collections/deepseek-ai/DeepSeek-V4

DeepSeek-V4 技术报告：

https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf

#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。

赏礼

赏钱

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

惊艳！全网爆火的DeepSeek太懂兰州城关公安了！

1个月前

DeepSeek-V4终于发布，开源再次比肩世界顶级闭源模型

1个月前