DeepSeek V4编程得分90%超GPT-4，靠什么实现技术反超-工信会

> 自媒体 > （AI）人工智能 > DeepSeek V4编程得分90%超GPT-4，靠什么实现技术反超

DeepSeek V4编程得分90%超GPT-4，靠什么实现技术反超

来源：和AI聊了一下

2026-05-02 19:59:35

166

管理

2026年4月，一份泄露的内部基准测试数据在AI圈内流传：DeepSeek的新一代旗舰模型V4，在编程能力权威测试HumanEval中拿到了90%的得分。这个数字，首次超过了硅谷巨头Claude Opus 4.5的88%，也压过了GPT-4的82%。

这不是简单的分数领先，而是国产大模型在核心编程领域，第一次真正跑在了国际头部产品前面。一个此前多次跳票的模型，凭什么能实现这次反超？

反超的关键，在于它换了一套更聪明的“解题班子”

你可以把GPT-4这类传统大模型，想象成一个超级全才。它的大脑（Transformer架构）是一个整体，无论你是让它写诗、翻译、还是写代码，它都必须动用全部“脑细胞”（约1.8万亿参数）来思考。

这就像每次解题，无论题目难易，都要把全校所有科目的老师都召集起来开会，资源消耗巨大，效率却未必最高。

DeepSeek V4走了一条不同的路。它采用了万亿参数的Mega MoE（混合专家）架构。这个架构的精髓在于：它组建了一个拥有1.6万亿知识储备的“超级专家智库”，但每次处理你的问题，只会根据问题类型，智能地激活其中几十位最相关的专家（约370亿参数）来工作。

对于GPT-4（密集架构）：你问一个Python循环问题，它需要启动整个“大脑”来思考，消耗大量算力。对于DeepSeek V4（MoE架构）：路由器识别出这是“编程问题”，立刻从智库中精准调用“Python语法专家”、“算法逻辑专家”和“代码优化专家”组成临时小组来解答。其他领域的专家，比如“文学创作专家”或“历史知识专家”，则处于待命状态，不消耗本次计算的资源。

这个设计的直接结果就是效率爆炸。V4在保持万亿级知识容量的同时，单次推理的计算成本仅为传统密集模型的1/18，推理速度较前代提升35倍，能耗降低40%。这意味着，它可以用低得多的成本，提供与GPT-4同等甚至更强的编程能力。

它能“看见”整个项目，而不是一行代码

编程能力的另一个分水岭，是能否理解复杂的软件工程。写一段函数是基础，但重构一个包含数十个文件、几十万行代码的项目，需要的是全局视野。

这里，V4的第二个核心优势显现出来：100万Token的超长上下文窗口。这是什么概念？GPT-4o的上下文是128K Token，Claude Opus 4.5是200K，而V4是它们的5到8倍。它足以一次性吞下《三体》三部曲的全本，或者一个中等规模软件项目的所有源代码、文档和配置文件。

传统的模型在处理大型项目时，必须像我们用碎纸机一样，把代码切分成一段段喂进去，这必然丢失文件间的调用关系和全局架构。而V4可以像一位经验丰富的架构师，一次性摊开整个项目的蓝图，看清所有模块如何衔接，哪里存在循环依赖，哪个函数可能存在安全漏洞。

基于此，它才能实现真正的“项目级”自动化：代码重构、漏洞检测、生成覆盖全场景的测试用例。

为了记住这么长的内容且不“遗忘”，V4采用了Engram条件记忆机制。这类似于人类大脑将海马体（快速记忆）和大脑皮层（长期存储）分工。V4将需要永久记忆的知识（如项目结构、API文档）存入一个独立的“仓库”，推理时再快速提取。

这使得它在百万Token文本中的记忆准确率高达98.2%，比GPT-4o高出8.5个百分点。

它用“专业题库”进行了特训

架构是骨架，数据是血肉。虽然DeepSeek官方未公布V4的具体训练数据构成，但从其表现可以清晰反推：它在编程上进行了极其专注的“特训”。

业内普遍认为，通用大模型的编程数据占比通常在15%-20%左右。而V4所展现出的，不仅是代码生成，更是软件工程全流程（开发、测试、维护）的深度理解能力。

这强烈暗示，其训练语料中编程相关数据的比例远高于行业常规，并且这些数据经过了精心清洗和标注，包含了大量跨文件依赖、代码评审记录、提交历史等工程化信息。

相比之下，GPT-4作为一款追求通用能力的模型，其训练更侧重于在浩瀚的互联网文本中保持平衡。它在编程上的能力，更像是其庞大知识体系中的一个优势子模块，而非像V4那样，从架构设计到数据喂养，都朝着“顶级编程助手”这个目标进行深度优化。

反超的背后，是一场成本和自主的战争

这场技术反超，最终会落到两个非常现实的层面：成本和自主权。

在成本上，V4的高效架构直接转化为商业优势。其API定价预计将比Claude便宜10到30倍，推理成本据称可降至GPT旗舰模型的1/10。对于全球开发者而言，这意味着可以用极低的价格，获得世界顶级的编程辅助能力。

更重要的是自主可控。V4完成了一项艰巨的底层工程：将其核心代码从英伟达的CUDA生态，全面迁移到了华为的CANN架构，实现了对昇腾、寒武纪等国产AI芯片的原生深度适配。这意味着它的训练和推理，可以完全摆脱对海外高端GPU的依赖。

英伟达CEO黄仁勋曾对此表示担忧，称这“对美国来说将是一个糟糕的结果”。这恰恰说明了V4突破的战略意义——它不仅在跑分上领先，更在AI产业的底层根基上，开辟了一条独立自主的道路。

所以，DeepSeek V4的反超，不是一个偶然的“弯道超车”。它是一个系统性的胜利：用更精巧的专家架构（Mega MoE）实现高效率，用超长的记忆（100万Token上下文）处理复杂工程，用专注的专业数据（高比例编程语料）锤炼深度能力，最终在成本和供应链上，建立起国产模型独有的护城河。

这标志着AI竞赛进入新阶段：从盲目堆砌参数，转向对效率、专业性和产业自主权的精耕细作。

赏礼

赏钱

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

DeepSeek融资百亿美元：V4成本仅GPT-4的1/70，如何重塑AI产业

2小时前

DeepSeek API价格仅为GPT-4的1/30：普通用户如何低成本用AI？

2小时前