DeepSeek 的 10 万亿美元大棋局【译】-工信会

> 自媒体 > （AI）人工智能 > DeepSeek 的 10 万亿美元大棋局【译】

DeepSeek 的 10 万亿美元大棋局【译】

来源：智见AI-大鹏

2026-06-10 12:00:08

管理

DeepSeek 的 10 万亿美元大棋局

大鹏注

这篇文章的核心不是「DeepSeek 怎么卖产品」，而是一个更大的判断：DeepSeek 可能在用开源模型、架构创新和内存效率，降低 AI 对顶级 GPU 与 HBM 的依赖，再反向做大中国 AI 硬件生态。

原文默认读者懂很多大模型和芯片术语。我在关键概念后加了通俗解释，也对图片做了筛选：保留能支撑论证的原图，把英文论文截图和商业合作逻辑重置成中文信息图。

DeepSeek 到底准备怎么赚钱？而且是赚很多钱那种。

它没有像 GLM、MoonShot、MiniMax 那样推出有竞争力的编程订阅套餐（coding plan）。多模态模型还没做。音频、视频模型，也没做。成熟的评测与应用运行框架（harness，把模型接进工具、评测和业务流程的工程框架），到现在也没有，只是最近才开始招相关的人。它还长期坚持开源，自己的"秘密配方"也愿意分享出来。

这看起来像疯子在烧钱。100 亿美元砸进去，是不是等于扔下水道？

我不这么看。

从 DeepSeek 做过的事往回推，你会发现它可能盯着一盘更大的棋。CEO 梁文锋的眼睛不在编程订阅那点钱上——他盯的是 DeepSeek 自己冲到 1 万亿美元估值，同时带出一个 10 万亿美元级别的 AI 硬件产业。

TechInAsia 报道称，DeepSeek 正在洽谈一轮融资，金额可能达到 100 亿美元，估值约 450 亿美元。

图：原文引用的 TechInAsia 融资报道。

DeepSeek 一直没有顺着主流路线走。主流路线是不断堆出「略好一点」的模型，然后尽快卖应用，比如编程订阅。我在 2025 年 1 月 27 日的一条爆款推文里就写过，当时我看到的 DeepSeek 已经不是这个打法。

现在，这个故事变得更有意思了。

当大家都在训练稠密模型（每次推理基本调动全部参数的模型）时，DeepSeek 去做更难训练的 MoE（Mixture of Experts，混合专家模型，可以理解成“多个专家分工，按需调用其中一部分”）。它用"第一性原理"（从底层约束重新推导，不照搬行业惯例）的方式工作，提出 GRPO 算法，替代强化学习中更昂贵的主流 PPO 算法（两者都是用奖励信号更新模型行为的训练方法）。它把 RLVR（Reinforcement Learning from Verified Rewards，基于可验证奖励的强化学习，用能自动判对错的题目训练推理能力）识别为提升模型推理能力的关键路径。它用 Multi Token Prediction（多 Token 预测，让模型一次预测多个后续片段）做出一种简单的投机解码方案（先快速猜一段，再验证修正，用来提速生成），同时让训练信号更密集。它完善了 ZERO bubble 流水线（让训练流水线少空转），提高有限 GPU 资源的利用率。它发布了 Expert Load Balancer（专家负载均衡器，把请求更均匀地分给不同专家模块），让大家更容易部署 MoE 模型。尤其是 Wide Expert Parallel（宽专家并行，让更多专家模块并行服务）策略，可以通过更大的 batch（一次合并处理更多请求）显著降低模型服务成本。它发明或完善了 MLA、DSA、CSA、HCA 等方法（都可以先理解成“让模型处理长上下文更省内存、更省计算”的注意力机制改造），降低 KV Cache 需求，并让上下文变长时计算需求尽可能保持稳定。它提出 Engram（给模型外挂一张“知识速查表”），用内存换计算。它提出 mHC（让信息在网络层之间更稳定流动的新连接方式），让模型规模变大时训练依然稳定。

清单还可以继续往下列。

在最普遍的"英雄旅程"叙事里，英雄一开始并不知道自己的旅程是什么。他一路学习，逐渐找到自己的伟大使命，并在重重阻力下完成它。他会遇到唱衰者，也会遇到不怀好意的人。他有明显缺陷，也要克服这些缺陷。他面对看起来无法跨越的挑战，学会结盟，也学会更聪明地使用稀缺资源。

观众愿意支持英雄，就是这个原因。DeepSeek 能得到粉丝、赢得全球尊重、同时收获大量反对者，是一样的逻辑。

仔细看 DeepSeek 已经走过的路，你会发现它很可能已经找到了自己的最终使命。它的目标不是卖编程订阅，而是激活一个 10 万亿美元级别的中国 AI 硬件生态，同时让自己达到 1 万亿美元估值。在这个过程中，它也会帮到西方硬件生态里的很多新进入者。欢迎评论和批评。

先算一笔 KV Cache 的账

先看一组数字。别怕，不难。

我用最近发布的 KV Cache（模型处理长上下文时保存的“临时记忆”）计算器，看 DeepSeek V4 Pro 带来的 KV Cache 节省，并把它和最新的 GLM、Qwen 模型对比。

按 100 万上下文来算，假设 KV 精度 8 bit，indexer（用来定位缓存内容的索引结构）精度 16 bit。

在 100 万上下文下：

DeepSeek V4 只需要 5.48GB HBM（高带宽显存，GPU 旁边最贵、最稀缺的高速内存）。GLM5 需要 60GB HBM。Qwen3-235B-A22B 需要高达 89GB HBM。

另外：

DeepSeek 是 1.6T 参数模型。GLM5 约 700B 参数，已经用了 DeepSeek 的 MLA 和 DSA，但最新的压缩注意力还没用上。Qwen3-235B-A22B 约 235B 参数，用的是 GQA 注意力。

在减轻内存压力这件事上，DeepSeek 打了重要基础。这类创新一旦被广泛采用，长周期 Agent 会变得极其经济，也会解锁下一批应用场景。

KV Cache 能做到这么小、还不牺牲质量，这才是 DeepSeek 可以用荒谬低价提供长时间缓存的根本原因。它的 cache hit（缓存命中，能直接复用之前算好的内容）价格不到 Sonnet 4.6 的 3%，而且缓存可以保留数小时。

长周期任务里缓存很小，就能以极低成本卸载到 SSD（固态硬盘），再重新加载回来，这会降低对 HBM 的需求。站在中国 AI 硬件产业的角度，HBM 是最短缺、最难制造的内存。DeepSeek 还开发了从 SSD 更快加载 KV Cache 的技术。

不过 DeepSeek V4 把 KV Cache 压缩到了这个程度，相关卸载机制可能都没那么必要了。

NAND、SSD、LPDDR：内存开始替代算力

谁能大规模供应 SSD？

别忘了，YMTC（长江存储）正在成为 3D NAND 巨头。NAND（闪存颗粒，SSD 的核心存储介质）让 DeepSeek 避免重新计算 KV。反过来，DeepSeek 也会为 NAND 和 SSD 创造一个巨大市场，这不只属于 YMTC，也属于所有相关厂商。

图：原文用 YMTC / NAND 作为中国内存供给侧的例子。

LPDDR（手机和笔记本常见的低功耗内存）也有巨大潜力。它可以变成权重（模型参数，可以理解成模型“记住的东西”）的存放地，需要时再把权重流进 HBM，从而降低 HBM 的需求压力。

下面这张图解释这个机制。

DeepSeek 并不是专门为了这个机制做了某个单点优化，但它的 MoE 架构、大量专家以及 4 bit 权重，让这个方案更容易落地。

把这个创新和极小的 KV Cache 放在一起看，HBM 的需求会被显著压低。

中国谁生产 LPDDR？CXMT（长鑫存储）。它在 LPDDR 速度上只落后约半代，在密度上落后约一代。这个差距并不远。再加上充足的 NAND，中国生态在不久的将来会拥有充足的 LPDDR。

图：原文用 CXMT 说明中国 LPDDR 供给正在补上。

这能缓解算力压力吗？能。

用 NAND 存放 KV Cache 的逻辑很清楚：它让 KV Cache 保留更久、降低 HBM 压力、也避免重复计算 KV Cache，从而缓解 GPU 和 ASIC 的计算压力。

那 LPDDR 能不能做类似的事？除了充当"按需流式加载权重"的中转站，它还能不能进一步帮忙？同样能。

LPDDR 可以保存大量被称为 Engram 的内容。DeepSeek 在相关论文里展示了一个观点：MoE 通过条件计算（只调用部分专家模块，而不是全模型一起算）扩展模型容量，但 Transformer（当代大模型最常见的基础架构）缺少一种原生的知识查找机制。它只能用低效的计算来模拟检索。

DeepSeek 引入 Engram，把经典 N-gram embedding（把短文本片段变成向量表示的老办法）现代化为一种 O(1) 的哈希查找模块（像查字典一样一步定位），并创造出另一条互补的稀疏轴线：conditional memory（条件记忆，需要时才查的外部记忆）。这可以节省计算，但需要内存来承载可能很大的 embedding 表（把知识映射成数字向量的查找表）。

这是典型的"内存换计算"。关键洞察在这：内存侧每 bit 检索成本要便宜得多。一次 LPDDR 查找，远比完整跑一遍 Transformer 层便宜。所以在规模化场景下，这笔交易非常划算。

这就是 DeepSeek 用内存节省计算的方式。

这是一笔值得做的交换

中国 GPU 和 ASIC（为特定任务定制的芯片）的原始 FLOPs（浮点运算能力，粗略代表芯片算力）很长时间都会落后于西方 GPU。原因很现实：没有同等的 chiplet（把多个小芯片封装成一个大芯片的设计）晶体管密度，也没有 EUV（极紫外光刻，先进芯片制造的关键设备）。先进封装上也还落后。

所以这类"用内存换计算"的交换非常值得做——尤其在中国能够大量生产 NAND 和 LPDDR 的前提下。

从这些创新来看，DeepSeek 的游戏根本不是为了短期赚几亿美元。它目前的选择已经说明了一切：还没有多模态，语音模型也还没做，视频更是没有影子。

它在打一场耐心的 10 万亿美元游戏：激活一套替代性的硬件生态。

这件事不只是让中国内存厂商成为中国和全球 AI 硬件舞台上的关键玩家。更重要的是，它降低了训练和推理 AI 模型本身的资源门槛，让更多 GPU、ASIC 和网络芯片厂商变得可用、可行。

这些创新也会帮到西方开源生态和新的硬件制造商。

证据已经摆在那了。把 DeepSeek 已经做出的创新再梳理一遍。

DeepSeek 的关键创新清单

图：原文这一段引用了多张英文论文截图。这里重置成中文路线图，先把读者需要理解的主线拎出来。

1. DeepSeek V2 引入 MoE 和 MLA。

MoE 让训练高智能模型的计算量降低了 40% 到 50%。MLA（Multi-head Latent Attention，可以理解成把注意力里的“记忆表示”压缩保存）让 KV Cache 减少了 90%，也让把 KV Cache 卸载到 SSD 变得高效。这些想法出现在 2024 年 5 月的论文中。后来，它们帮助 DeepSeek 只用 2048 张被限制性能的 H800 GPU，训练出了当时接近闭源模型水平的 DeepSeek V3。

2. DSA 用于长上下文场景。

DSA（DeepSeek Sparse Attention，可以理解成“不是所有历史内容都重新看一遍，而是挑重点看”）降低长上下文场景中的计算量，也缓解 HBM 带宽压力。它让计算量不随上下文长度增长而线性膨胀。原图表显示，DeepSeek-v3.2 的处理时间在上下文变长时基本保持平坦。

3. mHC 在 2025 年 12 月提出。

mHC 是 DeepSeek 的宏观架构创新，它重新设计了 Transformer 层之间的信息流。

标准残差连接（给每一层保留原始信号，避免越传越丢）来自 ResNet，形式是 x F(x)。mHC 把残差流扩展成多条并行的信息通道，并允许模型学习如何在这些通道之间混合。关键是，它把混合矩阵约束为双随机矩阵，通过 Sinkhorn-Knopp 投影到 Birkhoff 多面体（可以理解成把混合权重限制在稳定范围内），从数学上保证信号幅度在任意深度下都能被保持。

这解决了无约束 Hyper-Connections 的灾难性不稳定问题。Hyper-Connections 最早由字节跳动提出，但在 27B 规模下曾出现 3000 倍信号放大，导致训练完全崩溃。

mHC 的计算成本很低。它只增加 6.7% 的 wall-clock（真实训练耗时）训练开销，因为它不改变注意力层或 FFN 层（前馈网络层，Transformer 里负责进一步处理信息的模块）的 FLOPs，只改变这些层输出在层间的路由方式。

性能提升却很明显：在 27B 参数规模下，mHC 在 BIG-Bench Hard 推理上提升 7.2 分，在 DROP 上提升 3.2 分，在 GSM8K 数学上提升 2.8 分，在 MMLU 通用知识上提升 1.4 分。模型规模相同，计算预算几乎相同。

mHC 就是用更丰富、更有表达力的跨层信息拓扑（信息在网络层之间流动的路线图），换来了更高的单位参数智能，而且几乎不增加 FLOPs。

4. CSA、HSA 在 2026 年 4 月提出。

它们通过压缩 KV tokens（把长上下文里需要保存的关键片段进一步压缩），把 KV 需求再降低约 90%，同时大幅降低所需 FLOPs，继续缓解 HBM 与 GPU / ASIC 的压力。

5. Engram 在 2026 年第一季度提出。

Engram 可以理解为用 LPDDR 内存换计算。原图表显示，在相同总参数预算下，Engram 带来了性能增益。

6. 计算与通信重叠，以及 Dual Path 等创新。

DeepSeek 对 compute / communication overlap（计算和通信重叠，让芯片别一边算一边干等数据）的极端关注，以及 Dual Path（让数据走两条路径，减少瓶颈）这类创新，都可以理解为资源约束下的工程解法。但 DeepSeek 还更进一步：它直接给硬件厂商提供 ASIC 设计建议，避免它们浪费宝贵的硅面积。

这些建议来自 DeepSeek V4 论文。可以合理推测，它们在线下会给硬件厂商更多反馈。

7. 投资 TileLang。

TileLang 指向同一个方向：DeepSeek 解决的不只是自己的算力紧张问题，它也在让中国硬件生态更有能力和西方生态竞争。

通过 TileLang，开发者可以只写一次 kernel（底层计算小程序），然后让它在多个有 TileLang backend（适配不同硬件的后端）的硬件平台上运行。我预计其他中国大模型实验室也会加入，间接帮助中国硬件厂商绕开"CUDA 护城河"（英伟达长期积累的软件生态壁垒）。

这也会解锁更多西方硬件，比如 AMD。

补充一点：中国很多 AI 平台本身就提供 CUDA 兼容或 CUDA 翻译层。摩尔线程、沐曦、壁仞、天数智芯等芯片，通过翻译层已经具备较强 CUDA 兼容性，因此不一定需要 TileLang。

图：原文用国产 AI 硬件发布场景承接“更多硬件可用”的判断。

更便宜的硬件，打开更大的训练项目

有了更多潜在硬件选项，再加上计算需求本身下降，DeepSeek 就可以做更有野心的训练项目，尤其是 RL 后训练（用奖励信号在基座模型之后继续强化能力）。

RL 需要生成大量轨迹（模型完成任务的一整段尝试过程），也就是生成数万亿 token。成本会迅速上升。要训练 100 万上下文模型，还需要生成同样长度的轨迹。训练这种长轨迹模型，才能支撑长周期任务。

更重要的是，更多硬件可用，会让 DeepSeek 有能力做 automated research（自动化研究），也就是 RSI（Recursive Self-Improvement，递归自我改进，让 AI 自己设计实验、执行实验、再改进下一轮研究）。这个过程需要大量试错，成本很容易变得非常高。

但 RSI 对探索完整设计空间很重要。DeepSeek 想在通向 AGI（通用人工智能）再通向 ASI（超级人工智能）的路上继续前进，就必须具备 RSI 能力。

DeepSeek 围绕 MoE、MLA、DSA 的创新，已经被全球和中国其他 AI 实验室吸收。例如，Z.ai 的 GLM 系列模型使用了 MLA 和 DSA。Kimi（Moonshot）也采用了 MLA，并且很坦率地表示自己的架构基于 DeepSeek 架构。

反过来，DeepSeek 使用了 Muon optimizer（优化器，训练时调整模型参数的算法）。Muon 最早由 Kimi（Moonshot）用于大规模训练。

这里补充两点：MoE 并不是 DeepSeek 发明的，原文此处引用信息抓取缺失。DeepSeek 的贡献在于把它大规模应用，并发明了自己的技巧。Muon（MomentUm Orthogonalized by Newton-Schulz）优化器由机器学习研究者 Keller Jordan 在 2024 年末创建，Kimi（Moonshot）团队是第一个大规模使用它的团队。

OpenAI 的例子：硬件合作可以绑定股权收益

我们看 OpenAI 的一个有意思的例子。

OpenAI 获得了 AMD 和 Cerebras 的认股权证 / 期权（未来按约定价格买入股票的权利），可以在达到一定消费里程碑后，以较低价格买入它们的股票。这对 AMD 和 Cerebras 是一笔好交易。OpenAI 承诺使用它们的硬件，会让它们长期成功的概率显著提高。

AMD 的公告大意是：为了进一步对齐战略利益，AMD 向 OpenAI 发行了最多 1.6 亿股普通股的认股权证。这些权证会随着特定里程碑达成而逐步归属。第一批会在初始 1GW（吉瓦，数据中心算力部署规模单位）部署时归属，后续批次会随着采购扩展到 6GW 而归属。归属还与 AMD 达到特定股价目标，以及 OpenAI 达到让 AMD 大规模部署所需的技术和商业里程碑有关。

图：把原文的 AMD 公告截图重置成中文图，解释“算力承诺股权收益”的合作模式。

我预测 DeepSeek 会和多个中国内存、ASIC、CPU、网络技术栈厂商签订类似协议，并与它们紧密合作，让它们的硬件栈能够承载领先 AI 工作负载。

西方（包括东亚盟友）AI 股票的总估值已经远超 10 万亿美元。通过这种"合作并获得股权回报"的方式，DeepSeek 可以帮助中国创造一个同等规模的大产业，并在其中拿到自己的份额，同时实现 1 万亿美元估值。

图：原文列出的关键 AI 与半导体公司市值

这样，它能赚到远比卖订阅更多的钱，同时实现自己口中的"AGI for everyone"。

梁文锋是 Jim Simons 的粉丝，也是一位非常聪明的资本主义者。他不会错过这件事。把 DeepSeek 到目前为止做过的事放在一起看，这就是唯一说得通的解释。

原文最后说，更详细的技术创新博客会在本周末发布，感兴趣可以关注他的 Substack。

译者小结

这篇文章的核心判断，一句话就能说完：

DeepSeek 通过模型架构和内存效率创新，把"训练和推理必须依赖最顶级 HBM 与 GPU"的前提打松，然后让 NAND、LPDDR、国产 GPU / ASIC、网络芯片都有机会进入 AI 基础设施牌桌。

如果这个判断成立，DeepSeek 的商业模式就不是"卖模型应用"，而是"用开源模型和算法创新做硬件生态的需求发动机"，并通过股权合作分享整个产业链的增长。

赏礼

赏钱

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

41岁学AI：DeepSeek V4用了一个月，说说真实感受

3天前

首轮豪融 500 亿！DeepSeek 刷新国内 AI 融资天花板

3天前