> 自媒体 > (AI)人工智能 > 没想到!DeepSeek V4里,竟还藏着一个中国万亿开源模型
没想到!DeepSeek V4里,竟还藏着一个中国万亿开源模型
来源:新智元
2026-04-28 16:21:50
159
管理

编辑:好困

【新智元导读】DeepSeek V4,1.6万亿参数,Codeforces人类第23,KV缓存砍到1/10,已在英伟达GPU和华为昇腾NPU上完成验证。同一周Kimi K2.6万亿MoE开源,也在推国产芯片混合推理。中国AI的底座和芯片,同时动了。

DeepSeek V4,炸了!

1.6万亿参数,百万token上下文KV缓存砍到前代的十分之一,Codeforces评分3206直接超过GPT-5.4,在人类选手中排第23。

开源权重、API、近60页技术报告一起扔出来,社区已经开始拆了。

顶尖玩家总在同一个山口相遇

回看过去15个月,DeepSeek和Kimi的瞄准的技术方向和发布时机,对齐到让人怀疑是约好的。

2025年1月,DeepSeek-R1推理模型和Kimi K1.5多模态思考模型同日上线,相隔仅两小时。OpenAI 的Paper 也指出他们两家是最早复现o1思维链的团队。

2025年2月,两家前后脚发论文,都在改造Transformer注意力机制。DeepSeek的NSA做原生稀疏注意力,Kimi的MoBA做混合块注意力,

2025年4月,Kimi推出 Kimina-Prover Preview数学推理专项模型没多久,DeepSeek-Prover-V2 也发布,都走了「自验证」路线来证明数学定理。

2026年初,DeepSeek用mHC流形约束超连接来改造深度学习网络中的「残差连接」。到了3月,Kimi放出新技术「注意力残差」,直接将Transformer的核心原理「注意力」应用到「残差连接」上,引发Karpathy、马斯克等大神称赞。

2026年4月,万亿开源模型 Kimi K2.6和DeepSeek V4同周上线。

你用我验过的注意力机制

我用你验过的优化器

多次「相遇」的表面之下,是一个更微妙的现象,两家公司的技术在互相加持。

Kimi K2的注意力机制采用了DeepSeek首创的MLA(Multi-head Latent Attention)。

传统多头注意力需要为每个注意力头单独存储Key和Value,上下文越长KV缓存越大。

MLA的做法是把Q/K/V压缩到一个低秩的latent向量中,推理时只需缓存这个压缩向量再解压,KV缓存量大幅缩减。

在这套注意力机制上,K2扩展到了万亿参数的MoE模型。

反过来,DeepSeek V4采用了Muon优化器。

主流的AdamW对每个参数独立做自适应缩放,Muon则对整个梯度矩阵做Newton-Schulz正交化,让更新方向在矩阵空间中更均匀。

Muon最初由Keller Jordan等人提出,但只在小模型上验证过。

2025年初,Kimi团队的Moonlight论文中首次把Muon扩展到大规模训练,实验显示相同算力下Muon的计算效率约为AdamW的两倍。

2025年中,在万一参数的K2模型上,进一步开发出MuonClip,加入QK-clip来控制注意力logits的数值范围,实现了15.5万亿token预训练全程零loss spike。

老黄的PPT里,两个都是中国的

2026年初的CES大会上,黄仁勋展示Rubin NVL72性能的slide里,训练基准用的是DeepSeek,推理吞吐和token成本基准用的是Kimi K2-Thinking。

同一张PPT,两个中国开源模型。

衡量模型在未见过的代码库上的理解能力,越低越好

开发者端的数据也印证了这个趋势。

今天的OpenRouter调用量排行榜上,Kimi K2.6以297B tokens排名第一,DeepSeek V3.2以204B tokens排名第四。

前五名里两个中国模型,中间夹着Claude。

同一个方向,同一张桌子

而在芯片这条暗线上,两家也在同一个方向推进。

V4技术报告明确写到,细粒度专家并行方案同时在NVIDIA GPU和华为Ascend NPU上完成了验证。Kimi新论文《Prefill-as-a-Service》则引入分离式架构,推进国产芯片的混合推理方案。

竞争是表面,加速是结果

如果只有一家,可以说是个例。

但同一周两个万亿参数开源模型同时落地,背后的技术还在互相渗透,被GTC和Meta选为性能基准,被Cursor和Rakuten拿去当底座。

当某些闭源模型之间还在互相猜忌的时候,这两家已经在论文里互相引用、在代码里互相复用了。

这大概就是开源最硬的复利。

参考资料:

https://github.com/MoonshotAI/Kimi-K2/blob/main/tech_report.pdf

https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf

https://openrouter.ai/rankings?view=day

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
关于作者
冷冷的太阳..(普通会员)
文章
1942
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体105719

0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索