DeepSeek V4上线三天，第一批实测结果出来了：性价比确实够狠，但有些活它还接不住-工信会

> 自媒体 > （AI）人工智能 > DeepSeek V4上线三天，第一批实测结果出来了：性价比确实够狠，但有些活它还接不住

DeepSeek V4上线三天，第一批实测结果出来了：性价比确实够狠，但有些活它还接不住

来源：新浪财经

2026-04-29 10:23:48

管理

来源：市场资讯

（来源：网易智能）

出品 | 网易智能

作者 | 小小

编辑 | 王凤枝

DeepSeek V4到底能不能打？上线三天，第一批真实测试的结果陆续出来了。

它的纸面数据很猛，参数量最高到了1.6万亿，上下文窗口拉到100万token，API价格比GPT-5.5便宜了一个数量级。但三天下来最让人意外的，不是顶配的Pro，而是最便宜的Flash。有人拿20个真实任务把V4的四个版本全测了一遍，结果Flash赢了7个，好几个编码任务里它用更少的token，做出了和贵几十倍的Pro一样甚至更好的结果。

当然它也没强到可以闭眼吹。碰上复杂工程落地、精致前端、第一次就得成活的任务，GPT-5.5和Claude Opus 4.7仍然更稳。V4没有全面超车，但它正在把这场竞争从“谁最强”推向“谁最适合干哪种活”。

01实测出真知：最便宜的Flash，成了最大黑马？

很多人拿到新模型的第一反应，就是开最强的模式，跑最狠的测试。

但AI工程师Chew Loong Nian不这么想。他在DeepSeek V4发布后几小时内，就搭建了一个包含20个真实世界任务的测试框架，把V4家族的四个模式全部拉出来遛了一遍，分别是V4-Pro、V4-Pro-Max（最大推理努力）、V4-Flash，还有V4-Flash-Max。

这里需要先理清这几个模式的区别。DeepSeek V4分成了Pro和Flash两条产品线。Pro是更大的选项，参数达到1.6万亿，面向更深度的推理、更难的编码任务、研究以及长上下文工作。Flash则是更小、更快的选项，总参数2840亿，仅13亿激活参数，专为速度、更低成本以及需要重复调用模型的智能体工作流而生。

在这两个版本之上，用户还可以选择是否开启“深度思考”模式。开启之后，模型会花更多时间进行推理，在解决问题时展示出每一步思考过程，这通常会改善最终结果，但代价是响应速度变慢。

Chew Loong Nian的测试，就是把这四种组合并行投入实战。他的测试任务不是什么抽象基准，而是实打实的编码、Agent工作流、复杂推理和实际项目等场景。

结果让人大跌眼镜。赢的不是参数最大、思考最深的Pro-Max，而是最便宜、最轻量的Flash。就是这个每百万token输入成本仅约0.14美元的模型，在20个任务中硬生生拿下了7个第一。

其中5个是编码任务。在这些任务里，Pro-Max虽然思考了更久，输出的token量是Flash的4.3倍，但最终的答案却和Flash相同，甚至更差。一个典型的场景是，Flash用800个token就干净利落解决的问题，Pro-Max要花掉3400个token，成本相差了大约120倍。

这个发现很反直觉，但也很致命。它揭示了一个容易被忽视的事实，即更贵的模式、更深的思考，并不一定带来更好的实际产出。很多时候，Flash之所以能赢，恰恰是因为它没有被过多的思考带偏方向，反而更直接地命中了问题的核心。

Chew Loong Nian总结道，除非你的任务特别需要极致的深度推理，否则开发者在实际项目中应该优先考虑Flash。它用实际表现证明了，在大多数真实场景下，性价比并非一种妥协，本身就是一种强大的能力。

他还提到了DeepSeek在KV Cache压缩上的一个创新，被形容为没人预见到的10% KV缓存技巧。正是这项技术，让Flash能在极低的成本下依然维持高水平的性能表现。这是支撑其性价比优势的工程底座。

02 Pro的对手，是另一个维度的“人”

当然，这不代表Pro版本就弱。恰恰相反，DeepSeek给V4-Pro定的目标，直接对标的是当今世界的顶级闭源模型。

《麻省理工科技评论》引用了DeepSeek官方分享的基准测试结果，指出V4-Pro的性能与Anthropic的Claude Opus 4.6、OpenAI的GPT-5.4和谷歌Gemini 3.1相当。与其他开源模型相比，比如阿里巴巴的Qwen 3.5或Z.ai的GLM 5.1，V4在编码、数学和STEM问题上全面超越，成为有史以来最强大的开源模型之一。

但在一些第三方汇总的评估中，它与头部模型的差距依然存在。

专注AI新闻分析的网友@thehypedotnews根据一个名为人工智能分析智能指数的评估框架，给出了这样一组对比。如果将顶级模型的能力指数化，GPT-5.5是60，Claude Opus 4.7是57，DeepSeek V4-Pro则是52。

结果成了清晰的分水岭。GPT-5.5的表现被描述为以压倒性优势获胜。它不仅写了代码，还自主调用了GPT-image-2图像模型，为游戏生成了赛博狼和霓虹龙等怪物资源。它构建了一个响应式的HUD界面，并且在测试者说运行之前，就已经自我修正了战斗日志中的状态不匹配问题。整个表现，被形容为像一位资深首席架构师。

Claude Opus 4.7呢？组件结构写得很出色，但游戏循环崩溃了，从未真正运行起来。

而DeepSeek V4交出的答卷更为惨淡，那是一个静态的UI界面，逻辑存在错误，游戏根本无法运行。

在这场测试中，Opus和DeepSeek连一个功能循环都难以实现。Build Fast with AI借此提出了一个判断，到了2026年，我们需要的已经不只是能懂代码的模型了，而是能执行任务的智能代理，能自主规划、调用工具、修正错误、完整交付成果。

类似的挫败也出现在更垂直的领域。AI Agent开发与测试员@akokoi1分享了他用DeepSeek V4做量化交易的经历。策略和代码全线交给V4自己写。他接入了OKX刚开源的agent-trade-kit，一个MCP服务器，能把现货、合约、期权、网格交易、算法单的接口全部直接提供给AI调用。

DeepSeek的创新在于，让模型对什么值得关注变得更聪明、更挑剔。V4采用了一种混合注意力架构，不会将之前所有的文本都视为同等重要。它会有选择地压缩较早的历史信息，聚焦于当下最可能相关的部分，同时完整保留临近的文本，以免遗漏重要细节。

官方给出的效率提升数据相当惊人。在处理100万token的上下文时，V4-Pro仅使用了其前代模型V3.2所需算力的27%，内存使用量削减至10%。而V4-Flash的降幅更大，仅消耗了10%的算力和7%的内存。

这意味着，构建那些需要海量材料支撑的AI工具，比如能读取整个代码库的编码助手、能分析长篇文档的研究智能体，在成本上将变得切实可行。

那么，实际效果如何？AI从业者ByteWaveNetwork在V4发布后两天，就针对1M上下文真正可用这个说法做了一次可复现的测试。他在GitHub上公开了完整的测试代码和复现仓库。

测试方法是经典的大海捞针。他生成一个超大的填充文档，大量重复的企业风格无意义文本构成了干草堆，在其中随机隐藏一个具体的关键事实作为针。然后将整个文档喂给模型，让它回答文档中是否提到了这个事实、在哪里以及内容是什么。评分标准分为三个等级，完全准确、部分正确、完全遗漏。

他的核心发现是，V4的混合注意力架构确实显著提升了长上下文下的检索稳定性。在100万token级别，模型能够较为可靠地找到隐藏的信息，准确率较高。这个结果是积极的，印证了官方的技术声明并非空谈。

但他也同时指出了一个实际生产中的痛点，即响应延迟的方差较大。有时候反应很快，有时候则明显变慢。对于需要稳定响应时间的生产环境来说，这种不确定性是一个真实的问题。他的总结是，如果你能接受偶尔不确定的延迟，V4的长上下文检索能力是过硬的。但如果追求极致的一致性，可能还需要进一步优化或结合缓存策略。

这个注脚很务实，也很有必要。100万token的上下文不是万能药，工程落地时，延迟、成本和具体场景的适配，依然是需要逐个解决的课题。

05冰山之下：一场软硬件协同的“系统战”

如果说上述一切还停留在产品和技术层面，那么《麻省理工科技评论》的报道点出了V4更深层的战略意义。文章提炼了此次发布之所以重要的第三个原因，它标志着在摆脱对英伟达依赖的艰难道路上，迈出了第一步。

V4是DeepSeek首款针对华为昇腾等中国国产芯片进行优化的模型。这件事的分量，早在发布前就有迹可循。据The Information早些时候的报道，DeepSeek并未让英伟达和AMD等美国芯片制造商提前接触V4，而预发布访问通常是为了让芯片厂商能在模型发布前就做好适配优化。据报道，该公司只让中国芯片制造商获得了这种提前访问权。

发布当天，华为就宣布其基于昇腾950系列的昇腾超节点产品，将为DeepSeek V4的推理提供全面支持。这意味着，希望运行自己修改版模型的公司和个人，将能够绕开英伟达的CUDA生态，使用华为的硬件来部署这一前沿模型。

央视旗下有影响力的账号“玉渊谭天”在周日发声，将此誉为中国软硬件协同进步的信号。文中写道，虽然我国目前在制程节点、单卡性能上处于落后状态，但我们可以通过在系统设计、集群架构、软硬协同、供电效率上做文章，在现有约束条件下探索新的解题思路。这种表述，将一次模型发布上升到了产业路径选择的国家叙事层面。

不过需要厘清的是，这并非一个完全去英伟达化的故事。根据DeepSeek的技术报告，他们使用中国芯片进行推理环节，即当有人要求模型完成任务时的计算。但清华大学计算机科学教授刘知远称，DeepSeek似乎仅将V4的部分训练过程适配到了中国芯片上。技术报告没有说明一些关键的长上下文功能是否已在国产芯片上实现，因此刘教授的判断是，V4可能仍主要是在英伟达芯片上训练的。

路透社也曾报道称，华为芯片被用于V4 Flash的部分训练过程，而训练对芯片的要求远比推理更高。驻香港股票分析师梁庆新则表示，他找不到任何证据表明昇腾被用于训练V4 Flash，但他也指出，DeepSeek的技术文件显示两家公司的整合正在深化，这是一个可能的迹象，表明昇腾950未来将用于训练其模型。

DeepSeek官方还将V4的未来成本与这种硬件转变联系在了一起。公司表示，今年下半年华为昇腾950超节点开始大规模出货后，V4-Pro的价格可能会显著下降。如果这条路走得通，那么V4将不仅是一个新模型，更是中国正在成功构建一套并行AI基础设施的早期信号。

有评论者从更宏观的视角解读了这番布局。X网友@OopsGuess指出，当DeepSeek V4被添加到OpenClaw时，这已经不仅仅是又一次模型更新。从中可以看到一个清晰的链条正在成形，模型层是DeepSeek V4，硬件层是华为昇腾，代理工具层是OpenClaw和腾讯的CodeBuddy，应用层则指向真实的编码、会议、多步骤任务等工作流。

这意味着中国的AI生态系统，正从过去孤立的单点模型突破，转向构建完整的本土技术栈。

他评论道，美国试图通过切断英伟达芯片供应来减缓中国的步伐，而中国则以其一贯的方式做出回应。不断优化模型，将软件适配到自家硬件，持续降低成本，开放生态系统，并最终把外部的限制转化为建设自主基础设施的内在动力。

DeepSeek不再只是中国版ChatGPT，它正成为中国AI产业系统中的一个关键节点。模型、芯片、代理工具、云服务、应用场景以及开发者的工作流程，正在开始真正地互联互通。

他认为，对华盛顿而言，真正值得担忧的，并非V4的参数规模有多大，而是中国正在学会如何在美国的封锁之外，系统性地构建AI的完整闭环。

结语

把所有这些维度的信息拼在一起，DeepSeek V4的形象就不再是一个简单的强或弱可以概括的了。

它是一个特点极其鲜明的模型。在长上下文处理、智能体工作流搭建、成本控制和开源生态上，它展现了足够硬核的实力，为那些需要处理海量信息、追求性价比的开发者和企业，提供了一套前所未有的工具箱。

但在需要审美判断、前端精雕细琢、或应对高度不确定复杂环境的首次尝试中，它又暴露出肉眼可见的短板，与GPT-5.5和Claude的差距依然清晰。

DeepSeek V4不是来统治一切的，它重新定义了牌桌上的筹码，即前沿AI能力可以有多便宜，开源模型能走多远，以及一个受外部封锁制约的产业如何从芯片到应用层逐步构建起自己的完整生态。

当精致的前端输出是首要任务时，你最好还是选GPT-5.5或Claude。但当你的工作涉及长上下文分析、AI智能体、成本敏感型的自动化，以及需要一个开放且灵活的基础设施时，DeepSeek V4就是一个绕不开的选项。

最聪明的做法，从来不是在参数表之间做选择，而是在你自己的实际工作流中测试它，让真实的产出，而不是炫目的跑分数字，来给出最终的答案。

赏礼

赏钱

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

DeepSeek V4报告太详尽了！484天换代之路全公开

2个月前

DeepSeek V4终于发布，打破最强闭源垄断，明确携手华为芯片

2个月前