Deepseek V4第一波测评来了！-工信会

> 自媒体 > （AI）人工智能 > Deepseek V4第一波测评来了！

Deepseek V4第一波测评来了！

来源：华尔街见闻

2026-04-28 16:45:36

173

管理

DeepSeek V4 预览版开源上线后，第一波来自第三方榜单的测评结果已经出炉。多家测评显示，DeepSeek V4性能尤其在代码任务上冲进开源第一梯队，同时以“百万级上下文低价”把开发者侧的使用门槛进一步压低。

从第三方评测来看，评测平台 Arena.ai 在 X 上将V4 Pro（思考模式）定性为"相较DeepSeek V3.2的重大飞跃"，在其代码竞技场中列开源模型第3位、综合第14位；另一家测评方 Vals AI 则称，V4在其Vibe Code Benchmark中以"压倒性优势"拿下开源权重模型榜首，击败Gemini 3.1 Pro等闭源模型，较上代V3.2实现约10倍性能跃升。

用户Ejaaz则称：

"中国正在主导AI，他们已经追上来了。DeepSeek V4 Flash比Opus 4.7便宜99%，每百万token仅需0.28美元，代码竞技场排名第一，这不是笔误。"

内部使用数据方面，DeepSeek表示，V4已成为公司内部员工的Agentic Coding（智能体编程）主力模型，评测反馈显示其使用体验优于Claude Sonnet 4.5，交付质量接近Opus 4.6非思考模式，但与Opus 4.6思考模式仍有一定差距。

在数学、STEM及竞赛级代码评测中，V4-Pro超越目前已公开评测的所有开源模型，包括月之暗面的Kimi K2.6 Thinking和智谱GLM-5.1 Thinking，并取得比肩顶级闭源模型的成绩。

博主Simon Willison在其测评文章中指出，V4-Pro（1.6万亿参数）是目前已知最大的开源权重模型，超过Kimi K2.6（1.1万亿）、GLM-5.1（7540亿）以及DeepSeek V3.2（6850亿），为有意本地部署的企业用户提供了新的选项。

他还晒出了不同模型做出的鹈鹕图例：

这是DeepSeek-V4-Flash的鹈鹕：

DeepSeek将上述低价能力归因于模型在超长上下文场景下的极致效率优化。官方数据显示，在100万token场景下，V4-Pro的单token推理算力仅为V3.2的27%，KV缓存仅为10%；V4-Flash则分别低至10%和7%。

值得关注的是，DeepSeek在价格说明中附注称，"受限于高端算力，目前Pro的服务吞吐十分有限，预计下半年昇腾950超节点批量上市后，Pro的价格会大幅下调"，暗示当前定价仍有进一步下调空间。

技术架构：混合注意力机制突破长上下文瓶颈，适配国产算力

DeepSeek-V4的核心技术创新在于首创的"CSA（压缩稀疏注意力） HCA（重度压缩注意力）"混合注意力架构，旨在解决传统注意力机制在超长上下文场景下呈平方级复杂度攀升、显存与算力难以工程落地的行业痛点。CSA将每4个token压缩为一个信息块并通过稀疏检索获取最相关内容，在保留中段细节的同时大幅降低计算量；HCA则将海量信息浓缩为框架级信息块，专注全局逻辑处理。

在此之外，V4还引入mHC流形约束超连接（升级传统残差连接，将信号传播约束在稳定流形上）以及Muon优化器（替代传统AdamW，适配MoE大模型与低精度训练）。官方数据显示，全链路工程优化可实现推理加速最高接近2倍。

在国产算力适配方面，DeepSeek-V4在华为昇腾NPU平台上完成细粒度专家并行优化方案的全面验证，在通用推理负载场景下可实现1.50至1.73倍的加速比。DeepSeek官方表示，V4是全球首个在国产算力底座上完成训练与推理的万亿参数级模型，但目前昇腾平台适配代码暂未对外开源，属于闭源优化。此外，寒武纪已通过vLLM推理框架完成对V4-Flash和V4-Pro的适配，相关代码已开源至GitHub社区。

本文来自华尔街见闻，欢迎下载APP查看更多

赏礼

赏钱

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

DeepSeek 首次融资，AGI 理想向资本低头？

1小时前

DeepSeek V4震撼发布！实现全球开源领先

1小时前