> 自媒体 > (AI)人工智能 > DeepSeek V4编程得分90%超GPT-4,靠什么实现技术反超
DeepSeek V4编程得分90%超GPT-4,靠什么实现技术反超
来源:和AI聊了一下
2026-05-02 19:59:35
166
管理

2026年4月,一份泄露的内部基准测试数据在AI圈内流传:DeepSeek的新一代旗舰模型V4,在编程能力权威测试HumanEval中拿到了90%的得分。这个数字,首次超过了硅谷巨头Claude Opus 4.5的88%,也压过了GPT-4的82%。

这不是简单的分数领先,而是国产大模型在核心编程领域,第一次真正跑在了国际头部产品前面。一个此前多次跳票的模型,凭什么能实现这次反超?

反超的关键,在于它换了一套更聪明的“解题班子”

你可以把GPT-4这类传统大模型,想象成一个超级全才。它的大脑(Transformer架构)是一个整体,无论你是让它写诗、翻译、还是写代码,它都必须动用全部“脑细胞”(约1.8万亿参数)来思考。

这就像每次解题,无论题目难易,都要把全校所有科目的老师都召集起来开会,资源消耗巨大,效率却未必最高。

DeepSeek V4走了一条不同的路。它采用了万亿参数的Mega MoE(混合专家)架构。这个架构的精髓在于:它组建了一个拥有1.6万亿知识储备的“超级专家智库”,但每次处理你的问题,只会根据问题类型,智能地激活其中几十位最相关的专家(约370亿参数)来工作。

对于GPT-4(密集架构):你问一个Python循环问题,它需要启动整个“大脑”来思考,消耗大量算力。对于DeepSeek V4(MoE架构):路由器识别出这是“编程问题”,立刻从智库中精准调用“Python语法专家”、“算法逻辑专家”和“代码优化专家”组成临时小组来解答。其他领域的专家,比如“文学创作专家”或“历史知识专家”,则处于待命状态,不消耗本次计算的资源。

这个设计的直接结果就是效率爆炸。V4在保持万亿级知识容量的同时,单次推理的计算成本仅为传统密集模型的1/18,推理速度较前代提升35倍,能耗降低40%。这意味着,它可以用低得多的成本,提供与GPT-4同等甚至更强的编程能力。

它能“看见”整个项目,而不是一行代码

编程能力的另一个分水岭,是能否理解复杂的软件工程。写一段函数是基础,但重构一个包含数十个文件、几十万行代码的项目,需要的是全局视野。

这里,V4的第二个核心优势显现出来:100万Token的超长上下文窗口。这是什么概念?GPT-4o的上下文是128K Token,Claude Opus 4.5是200K,而V4是它们的5到8倍。它足以一次性吞下《三体》三部曲的全本,或者一个中等规模软件项目的所有源代码、文档和配置文件。

传统的模型在处理大型项目时,必须像我们用碎纸机一样,把代码切分成一段段喂进去,这必然丢失文件间的调用关系和全局架构。而V4可以像一位经验丰富的架构师,一次性摊开整个项目的蓝图,看清所有模块如何衔接,哪里存在循环依赖,哪个函数可能存在安全漏洞。

基于此,它才能实现真正的“项目级”自动化:代码重构、漏洞检测、生成覆盖全场景的测试用例。

为了记住这么长的内容且不“遗忘”,V4采用了Engram条件记忆机制。这类似于人类大脑将海马体(快速记忆)和大脑皮层(长期存储)分工。V4将需要永久记忆的知识(如项目结构、API文档)存入一个独立的“仓库”,推理时再快速提取。

这使得它在百万Token文本中的记忆准确率高达98.2%,比GPT-4o高出8.5个百分点。

它用“专业题库”进行了特训

架构是骨架,数据是血肉。虽然DeepSeek官方未公布V4的具体训练数据构成,但从其表现可以清晰反推:它在编程上进行了极其专注的“特训”。

业内普遍认为,通用大模型的编程数据占比通常在15%-20%左右。而V4所展现出的,不仅是代码生成,更是软件工程全流程(开发、测试、维护)的深度理解能力。

这强烈暗示,其训练语料中编程相关数据的比例远高于行业常规,并且这些数据经过了精心清洗和标注,包含了大量跨文件依赖、代码评审记录、提交历史等工程化信息。

相比之下,GPT-4作为一款追求通用能力的模型,其训练更侧重于在浩瀚的互联网文本中保持平衡。它在编程上的能力,更像是其庞大知识体系中的一个优势子模块,而非像V4那样,从架构设计到数据喂养,都朝着“顶级编程助手”这个目标进行深度优化。

反超的背后,是一场成本和自主的战争

这场技术反超,最终会落到两个非常现实的层面:成本和自主权。

在成本上,V4的高效架构直接转化为商业优势。其API定价预计将比Claude便宜10到30倍,推理成本据称可降至GPT旗舰模型的1/10。对于全球开发者而言,这意味着可以用极低的价格,获得世界顶级的编程辅助能力。

更重要的是自主可控。V4完成了一项艰巨的底层工程:将其核心代码从英伟达的CUDA生态,全面迁移到了华为的CANN架构,实现了对昇腾、寒武纪等国产AI芯片的原生深度适配。这意味着它的训练和推理,可以完全摆脱对海外高端GPU的依赖。

英伟达CEO黄仁勋曾对此表示担忧,称这“对美国来说将是一个糟糕的结果”。这恰恰说明了V4突破的战略意义——它不仅在跑分上领先,更在AI产业的底层根基上,开辟了一条独立自主的道路。

所以,DeepSeek V4的反超,不是一个偶然的“弯道超车”。它是一个系统性的胜利:用更精巧的专家架构(Mega MoE)实现高效率,用超长的记忆(100万Token上下文)处理复杂工程,用专注的专业数据(高比例编程语料)锤炼深度能力,最终在成本和供应链上,建立起国产模型独有的护城河。

这标志着AI竞赛进入新阶段:从盲目堆砌参数,转向对效率、专业性和产业自主权的精耕细作。

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
今日要点1️⃣ DeepSeek V4 正式发布,多项基准测试接近 GPT-4o 水平2️..
亚马逊已在 AWS 上架多款全新 OpenAI 产品
来源:环球市场播报就在 OpenAI 宣布,其主要投资方兼云端合作方微软不再..
美国AI神话破灭!OpenAI 连续多月未达销售目标,ChatGPT 增长失速..
曾以 ChatGPT 引爆全球 AI 浪潮、估值高达 8520 亿美元的 OpenAI,如今陷..
马斯克怒怼 OpenAI 庭审实录:一场关于理想、金钱与背叛的科技大戏..
一个被自己养大的孩子咬了一口2015年冬天,旧金山一间小会议室里,几个男..
OpenAI :未来几年我们将取得相当于几十年理论物理学进展的成果..
"未来几年,我们将取得相当于几十年理论物理学进展的成果。"这句话出自一..
OpenAI 硬件负责人的闭门分享,向我们揭示了为什么硬件「终点」仍是智能手..
「你必须为模型将要去的方向设计硬件,而不是为今天的模型。」作者|张勇..
OpenAI 也打算进军手机市场?最快2028 年量产
去年OpenAI收购由前苹果传奇设计师Jony Ive 共同创办的新创公司,目的是..
微信这个地方要尽快删除,不然别人登录了你微信,你可能都不知道..
天天抱着手机刷微信,聊天、支付、办公全靠它,九成用户都没留意过微信里..
iOS微信8.0.72新版发布!朋友圈改版与多项灰测功能解析..
不过目前来看,这次界面调整针对的是自己或好友的「朋友圈」个人主页,朋..
关于作者
聚焦每日新资..(普通会员)
文章
1989
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体106484

0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索