没想到！DeepSeek V4里，竟还藏着一个中国万亿开源模型-工信会

> 自媒体 > （AI）人工智能 > 没想到！DeepSeek V4里，竟还藏着一个中国万亿开源模型

没想到！DeepSeek V4里，竟还藏着一个中国万亿开源模型

来源：新智元

2026-04-28 16:21:50

182

管理

编辑：好困

【新智元导读】DeepSeek V4，1.6万亿参数，Codeforces人类第23，KV缓存砍到1/10，已在英伟达GPU和华为昇腾NPU上完成验证。同一周Kimi K2.6万亿MoE开源，也在推国产芯片混合推理。中国AI的底座和芯片，同时动了。

DeepSeek V4，炸了！

1.6万亿参数，百万token上下文KV缓存砍到前代的十分之一，Codeforces评分3206直接超过GPT-5.4，在人类选手中排第23。

开源权重、API、近60页技术报告一起扔出来，社区已经开始拆了。

顶尖玩家总在同一个山口相遇

回看过去15个月，DeepSeek和Kimi的瞄准的技术方向和发布时机，对齐到让人怀疑是约好的。

2025年1月，DeepSeek-R1推理模型和Kimi K1.5多模态思考模型同日上线，相隔仅两小时。OpenAI 的Paper 也指出他们两家是最早复现o1思维链的团队。

2025年2月，两家前后脚发论文，都在改造Transformer注意力机制。DeepSeek的NSA做原生稀疏注意力，Kimi的MoBA做混合块注意力，

2025年4月，Kimi推出 Kimina-Prover Preview数学推理专项模型没多久，DeepSeek-Prover-V2 也发布，都走了「自验证」路线来证明数学定理。

2026年初，DeepSeek用mHC流形约束超连接来改造深度学习网络中的「残差连接」。到了3月，Kimi放出新技术「注意力残差」，直接将Transformer的核心原理「注意力」应用到「残差连接」上，引发Karpathy、马斯克等大神称赞。

2026年4月，万亿开源模型 Kimi K2.6和DeepSeek V4同周上线。

你用我验过的注意力机制

我用你验过的优化器

多次「相遇」的表面之下，是一个更微妙的现象，两家公司的技术在互相加持。

Kimi K2的注意力机制采用了DeepSeek首创的MLA（Multi-head Latent Attention）。

传统多头注意力需要为每个注意力头单独存储Key和Value，上下文越长KV缓存越大。

MLA的做法是把Q/K/V压缩到一个低秩的latent向量中，推理时只需缓存这个压缩向量再解压，KV缓存量大幅缩减。

在这套注意力机制上，K2扩展到了万亿参数的MoE模型。

反过来，DeepSeek V4采用了Muon优化器。

主流的AdamW对每个参数独立做自适应缩放，Muon则对整个梯度矩阵做Newton-Schulz正交化，让更新方向在矩阵空间中更均匀。

Muon最初由Keller Jordan等人提出，但只在小模型上验证过。

2025年初，Kimi团队的Moonlight论文中首次把Muon扩展到大规模训练，实验显示相同算力下Muon的计算效率约为AdamW的两倍。

2025年中，在万一参数的K2模型上，进一步开发出MuonClip，加入QK-clip来控制注意力logits的数值范围，实现了15.5万亿token预训练全程零loss spike。

老黄的PPT里，两个都是中国的

2026年初的CES大会上，黄仁勋展示Rubin NVL72性能的slide里，训练基准用的是DeepSeek，推理吞吐和token成本基准用的是Kimi K2-Thinking。

同一张PPT，两个中国开源模型。

衡量模型在未见过的代码库上的理解能力，越低越好

开发者端的数据也印证了这个趋势。

今天的OpenRouter调用量排行榜上，Kimi K2.6以297B tokens排名第一，DeepSeek V3.2以204B tokens排名第四。

前五名里两个中国模型，中间夹着Claude。

同一个方向，同一张桌子

而在芯片这条暗线上，两家也在同一个方向推进。

V4技术报告明确写到，细粒度专家并行方案同时在NVIDIA GPU和华为Ascend NPU上完成了验证。Kimi新论文《Prefill-as-a-Service》则引入分离式架构，推进国产芯片的混合推理方案。

竞争是表面，加速是结果

如果只有一家，可以说是个例。

但同一周两个万亿参数开源模型同时落地，背后的技术还在互相渗透，被GTC和Meta选为性能基准，被Cursor和Rakuten拿去当底座。

当某些闭源模型之间还在互相猜忌的时候，这两家已经在论文里互相引用、在代码里互相复用了。

这大概就是开源最硬的复利。

参考资料：

https://github.com/MoonshotAI/Kimi-K2/blob/main/tech_report.pdf

https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf

https://openrouter.ai/rankings?view=day

0

点赞

赏礼

赏钱

0

收藏

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

DeepSeek V4 来了！超越 Claude Sonnet 4.5，赶紧对接 Claude Code 体验

华为背后助力，DeepSeek V4正式发布，摆脱英伟达GPU依赖？

相关文章

IM 不等于同步：多数人都用错了聊天软件

导读：同样一个聊天框，甩一句话需求是同步沟通，发一个任务链接是异步沟..

和异性聊天不会找话题？4个万能技巧，告别尬聊冷场

生活里很多人都有一个通病：和同性相处无话不谈、轻松自在，可一跟异性聊..

12款免费外贸翻译沟通神器，和老外聊天零语言障碍

同样做外贸对接国外客户，有人英语零基础，靠着几款免费工具顺畅谈订单、..

加拿大立法禁止16岁以下儿童使用社交媒体，并监管AI聊天机器人..

IT之家 6 月 11 日消息，据路透社报道，加拿大政府于当地时间周三出台了..

聊天份额仅3.5%却年化营收470亿美元，Anthropic靠什么？

3.5%。这是Claude在聊天机器人市场的份额——相比之下，ChatGPT一个人就..

女子与ChatGPT交流后去世母亲起诉OpenAI称设计存在缺陷..

【CNMO科技消息】近日，一名美国母亲起诉OpenAI，称该公司在ChatGPT中的..

ChatGPT 可能不只是聊天工具了，普通人要关注什么？

#chatgpt##ai#最近有一条关于 OpenAI 的消息值得普通用户留意。据 TechCr..

聊天已死：Chat GPT 要变 Agent GPT 了

ChatGPT要从聊天框升级成超级应用，把Codex和Agent全塞进去，这是OpenAI..

狗狗之间怎么“聊天”？这5种方式很有趣！

养狗的人经常看到两只狗凑在一起闻来闻去、叫来叫去，别觉得奇怪——它们..

关于作者

冷冷的太阳..(普通会员)

文章

2097

关注

0

粉丝

0

点击领取今天的签到奖励!

猜你喜欢

01

DeepSeek 究竟是个啥？一文带你看明白

2025/02/08

02

微信聊天时，女人说“哼哼”，10个高情商回复

2023/10/04

03

聊天交友软件常用骗局（套路）交友需小心！

2023/07/15

04

这怕是全网最强的 DeepSeek 图片教程吧，赶紧收藏了！

2025/02/09

05

AI 界黑马DeepSeek 超详细介绍

2025/02/09

标签云

成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体113533

@2022 All Rights Reserved

浙ICP备19035174号-6 技术支持：千寻网络

0

0

分享

请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索