大鹏注
这篇文章的核心不是「DeepSeek 怎么卖产品」,而是一个更大的判断:DeepSeek 可能在用开源模型、架构创新和内存效率,降低 AI 对顶级 GPU 与 HBM 的依赖,再反向做大中国 AI 硬件生态。
原文默认读者懂很多大模型和芯片术语。我在关键概念后加了通俗解释,也对图片做了筛选:保留能支撑论证的原图,把英文论文截图和商业合作逻辑重置成中文信息图。

DeepSeek 到底准备怎么赚钱?而且是赚很多钱那种。
它没有像 GLM、MoonShot、MiniMax 那样推出有竞争力的编程订阅套餐(coding plan)。多模态模型还没做。音频、视频模型,也没做。成熟的评测与应用运行框架(harness,把模型接进工具、评测和业务流程的工程框架),到现在也没有,只是最近才开始招相关的人。它还长期坚持开源,自己的"秘密配方"也愿意分享出来。
这看起来像疯子在烧钱。100 亿美元砸进去,是不是等于扔下水道?
我不这么看。
从 DeepSeek 做过的事往回推,你会发现它可能盯着一盘更大的棋。CEO 梁文锋的眼睛不在编程订阅那点钱上——他盯的是 DeepSeek 自己冲到 1 万亿美元估值,同时带出一个 10 万亿美元级别的 AI 硬件产业。
TechInAsia 报道称,DeepSeek 正在洽谈一轮融资,金额可能达到 100 亿美元,估值约 450 亿美元。

图:原文引用的 TechInAsia 融资报道。
DeepSeek 一直没有顺着主流路线走。主流路线是不断堆出「略好一点」的模型,然后尽快卖应用,比如编程订阅。我在 2025 年 1 月 27 日的一条爆款推文里就写过,当时我看到的 DeepSeek 已经不是这个打法。
现在,这个故事变得更有意思了。
当大家都在训练稠密模型(每次推理基本调动全部参数的模型)时,DeepSeek 去做更难训练的 MoE(Mixture of Experts,混合专家模型,可以理解成“多个专家分工,按需调用其中一部分”)。它用"第一性原理"(从底层约束重新推导,不照搬行业惯例)的方式工作,提出 GRPO 算法,替代强化学习中更昂贵的主流 PPO 算法(两者都是用奖励信号更新模型行为的训练方法)。它把 RLVR(Reinforcement Learning from Verified Rewards,基于可验证奖励的强化学习,用能自动判对错的题目训练推理能力)识别为提升模型推理能力的关键路径。它用 Multi Token Prediction(多 Token 预测,让模型一次预测多个后续片段)做出一种简单的投机解码方案(先快速猜一段,再验证修正,用来提速生成),同时让训练信号更密集。它完善了 ZERO bubble 流水线(让训练流水线少空转),提高有限 GPU 资源的利用率。它发布了 Expert Load Balancer(专家负载均衡器,把请求更均匀地分给不同专家模块),让大家更容易部署 MoE 模型。尤其是 Wide Expert Parallel(宽专家并行,让更多专家模块并行服务)策略,可以通过更大的 batch(一次合并处理更多请求)显著降低模型服务成本。它发明或完善了 MLA、DSA、CSA、HCA 等方法(都可以先理解成“让模型处理长上下文更省内存、更省计算”的注意力机制改造),降低 KV Cache 需求,并让上下文变长时计算需求尽可能保持稳定。它提出 Engram(给模型外挂一张“知识速查表”),用内存换计算。它提出 mHC(让信息在网络层之间更稳定流动的新连接方式),让模型规模变大时训练依然稳定。清单还可以继续往下列。
在最普遍的"英雄旅程"叙事里,英雄一开始并不知道自己的旅程是什么。他一路学习,逐渐找到自己的伟大使命,并在重重阻力下完成它。他会遇到唱衰者,也会遇到不怀好意的人。他有明显缺陷,也要克服这些缺陷。他面对看起来无法跨越的挑战,学会结盟,也学会更聪明地使用稀缺资源。
观众愿意支持英雄,就是这个原因。DeepSeek 能得到粉丝、赢得全球尊重、同时收获大量反对者,是一样的逻辑。
仔细看 DeepSeek 已经走过的路,你会发现它很可能已经找到了自己的最终使命。它的目标不是卖编程订阅,而是激活一个 10 万亿美元级别的中国 AI 硬件生态,同时让自己达到 1 万亿美元估值。在这个过程中,它也会帮到西方硬件生态里的很多新进入者。欢迎评论和批评。
先算一笔 KV Cache 的账先看一组数字。别怕,不难。
我用最近发布的 KV Cache(模型处理长上下文时保存的“临时记忆”)计算器,看 DeepSeek V4 Pro 带来的 KV Cache 节省,并把它和最新的 GLM、Qwen 模型对比。
按 100 万上下文来算,假设 KV 精度 8 bit,indexer(用来定位缓存内容的索引结构)精度 16 bit。

在 100 万上下文下:
DeepSeek V4 只需要 5.48GB HBM(高带宽显存,GPU 旁边最贵、最稀缺的高速内存)。GLM5 需要 60GB HBM。Qwen3-235B-A22B 需要高达 89GB HBM。另外:
DeepSeek 是 1.6T 参数模型。GLM5 约 700B 参数,已经用了 DeepSeek 的 MLA 和 DSA,但最新的压缩注意力还没用上。Qwen3-235B-A22B 约 235B 参数,用的是 GQA 注意力。在减轻内存压力这件事上,DeepSeek 打了重要基础。这类创新一旦被广泛采用,长周期 Agent 会变得极其经济,也会解锁下一批应用场景。
KV Cache 能做到这么小、还不牺牲质量,这才是 DeepSeek 可以用荒谬低价提供长时间缓存的根本原因。它的 cache hit(缓存命中,能直接复用之前算好的内容)价格不到 Sonnet 4.6 的 3%,而且缓存可以保留数小时。
长周期任务里缓存很小,就能以极低成本卸载到 SSD(固态硬盘),再重新加载回来,这会降低对 HBM 的需求。站在中国 AI 硬件产业的角度,HBM 是最短缺、最难制造的内存。DeepSeek 还开发了从 SSD 更快加载 KV Cache 的技术。
不过 DeepSeek V4 把 KV Cache 压缩到了这个程度,相关卸载机制可能都没那么必要了。
NAND、SSD、LPDDR:内存开始替代算力谁能大规模供应 SSD?
别忘了,YMTC(长江存储)正在成为 3D NAND 巨头。NAND(闪存颗粒,SSD 的核心存储介质)让 DeepSeek 避免重新计算 KV。反过来,DeepSeek 也会为 NAND 和 SSD 创造一个巨大市场,这不只属于 YMTC,也属于所有相关厂商。

图:原文用 YMTC / NAND 作为中国内存供给侧的例子。
LPDDR(手机和笔记本常见的低功耗内存)也有巨大潜力。它可以变成权重(模型参数,可以理解成模型“记住的东西”)的存放地,需要时再把权重流进 HBM,从而降低 HBM 的需求压力。
下面这张图解释这个机制。

DeepSeek 并不是专门为了这个机制做了某个单点优化,但它的 MoE 架构、大量专家以及 4 bit 权重,让这个方案更容易落地。
把这个创新和极小的 KV Cache 放在一起看,HBM 的需求会被显著压低。
中国谁生产 LPDDR?CXMT(长鑫存储)。它在 LPDDR 速度上只落后约半代,在密度上落后约一代。这个差距并不远。再加上充足的 NAND,中国生态在不久的将来会拥有充足的 LPDDR。

图:原文用 CXMT 说明中国 LPDDR 供给正在补上。
这能缓解算力压力吗?能。
用 NAND 存放 KV Cache 的逻辑很清楚:它让 KV Cache 保留更久、降低 HBM 压力、也避免重复计算 KV Cache,从而缓解 GPU 和 ASIC 的计算压力。
那 LPDDR 能不能做类似的事?除了充当"按需流式加载权重"的中转站,它还能不能进一步帮忙?同样能。
LPDDR 可以保存大量被称为 Engram 的内容。DeepSeek 在相关论文里展示了一个观点:MoE 通过条件计算(只调用部分专家模块,而不是全模型一起算)扩展模型容量,但 Transformer(当代大模型最常见的基础架构)缺少一种原生的知识查找机制。它只能用低效的计算来模拟检索。
DeepSeek 引入 Engram,把经典 N-gram embedding(把短文本片段变成向量表示的老办法)现代化为一种 O(1) 的哈希查找模块(像查字典一样一步定位),并创造出另一条互补的稀疏轴线:conditional memory(条件记忆,需要时才查的外部记忆)。这可以节省计算,但需要内存来承载可能很大的 embedding 表(把知识映射成数字向量的查找表)。
这是典型的"内存换计算"。关键洞察在这:内存侧每 bit 检索成本要便宜得多。一次 LPDDR 查找,远比完整跑一遍 Transformer 层便宜。所以在规模化场景下,这笔交易非常划算。
这就是 DeepSeek 用内存节省计算的方式。
这是一笔值得做的交换中国 GPU 和 ASIC(为特定任务定制的芯片)的原始 FLOPs(浮点运算能力,粗略代表芯片算力)很长时间都会落后于西方 GPU。原因很现实:没有同等的 chiplet(把多个小芯片封装成一个大芯片的设计)晶体管密度,也没有 EUV(极紫外光刻,先进芯片制造的关键设备)。先进封装上也还落后。
所以这类"用内存换计算"的交换非常值得做——尤其在中国能够大量生产 NAND 和 LPDDR 的前提下。
从这些创新来看,DeepSeek 的游戏根本不是为了短期赚几亿美元。它目前的选择已经说明了一切:还没有多模态,语音模型也还没做,视频更是没有影子。
它在打一场耐心的 10 万亿美元游戏:激活一套替代性的硬件生态。
这件事不只是让中国内存厂商成为中国和全球 AI 硬件舞台上的关键玩家。更重要的是,它降低了训练和推理 AI 模型本身的资源门槛,让更多 GPU、ASIC 和网络芯片厂商变得可用、可行。
这些创新也会帮到西方开源生态和新的硬件制造商。
证据已经摆在那了。把 DeepSeek 已经做出的创新再梳理一遍。
DeepSeek 的关键创新清单
图:原文这一段引用了多张英文论文截图。这里重置成中文路线图,先把读者需要理解的主线拎出来。
1. DeepSeek V2 引入 MoE 和 MLA。
MoE 让训练高智能模型的计算量降低了 40% 到 50%。MLA(Multi-head Latent Attention,可以理解成把注意力里的“记忆表示”压缩保存)让 KV Cache 减少了 90%,也让把 KV Cache 卸载到 SSD 变得高效。这些想法出现在 2024 年 5 月的论文中。后来,它们帮助 DeepSeek 只用 2048 张被限制性能的 H800 GPU,训练出了当时接近闭源模型水平的 DeepSeek V3。
2. DSA 用于长上下文场景。
DSA(DeepSeek Sparse Attention,可以理解成“不是所有历史内容都重新看一遍,而是挑重点看”)降低长上下文场景中的计算量,也缓解 HBM 带宽压力。它让计算量不随上下文长度增长而线性膨胀。原图表显示,DeepSeek-v3.2 的处理时间在上下文变长时基本保持平坦。
3. mHC 在 2025 年 12 月提出。
mHC 是 DeepSeek 的宏观架构创新,它重新设计了 Transformer 层之间的信息流。
标准残差连接(给每一层保留原始信号,避免越传越丢)来自 ResNet,形式是 x F(x)。mHC 把残差流扩展成多条并行的信息通道,并允许模型学习如何在这些通道之间混合。关键是,它把混合矩阵约束为双随机矩阵,通过 Sinkhorn-Knopp 投影到 Birkhoff 多面体(可以理解成把混合权重限制在稳定范围内),从数学上保证信号幅度在任意深度下都能被保持。
这解决了无约束 Hyper-Connections 的灾难性不稳定问题。Hyper-Connections 最早由字节跳动提出,但在 27B 规模下曾出现 3000 倍信号放大,导致训练完全崩溃。
mHC 的计算成本很低。它只增加 6.7% 的 wall-clock(真实训练耗时)训练开销,因为它不改变注意力层或 FFN 层(前馈网络层,Transformer 里负责进一步处理信息的模块)的 FLOPs,只改变这些层输出在层间的路由方式。
性能提升却很明显:在 27B 参数规模下,mHC 在 BIG-Bench Hard 推理上提升 7.2 分,在 DROP 上提升 3.2 分,在 GSM8K 数学上提升 2.8 分,在 MMLU 通用知识上提升 1.4 分。模型规模相同,计算预算几乎相同。
mHC 就是用更丰富、更有表达力的跨层信息拓扑(信息在网络层之间流动的路线图),换来了更高的单位参数智能,而且几乎不增加 FLOPs。
4. CSA、HSA 在 2026 年 4 月提出。
它们通过压缩 KV tokens(把长上下文里需要保存的关键片段进一步压缩),把 KV 需求再降低约 90%,同时大幅降低所需 FLOPs,继续缓解 HBM 与 GPU / ASIC 的压力。
5. Engram 在 2026 年第一季度提出。
Engram 可以理解为用 LPDDR 内存换计算。原图表显示,在相同总参数预算下,Engram 带来了性能增益。
6. 计算与通信重叠,以及 Dual Path 等创新。
DeepSeek 对 compute / communication overlap(计算和通信重叠,让芯片别一边算一边干等数据)的极端关注,以及 Dual Path(让数据走两条路径,减少瓶颈)这类创新,都可以理解为资源约束下的工程解法。但 DeepSeek 还更进一步:它直接给硬件厂商提供 ASIC 设计建议,避免它们浪费宝贵的硅面积。
这些建议来自 DeepSeek V4 论文。可以合理推测,它们在线下会给硬件厂商更多反馈。
7. 投资 TileLang。
TileLang 指向同一个方向:DeepSeek 解决的不只是自己的算力紧张问题,它也在让中国硬件生态更有能力和西方生态竞争。
通过 TileLang,开发者可以只写一次 kernel(底层计算小程序),然后让它在多个有 TileLang backend(适配不同硬件的后端)的硬件平台上运行。我预计其他中国大模型实验室也会加入,间接帮助中国硬件厂商绕开"CUDA 护城河"(英伟达长期积累的软件生态壁垒)。
这也会解锁更多西方硬件,比如 AMD。
补充一点:中国很多 AI 平台本身就提供 CUDA 兼容或 CUDA 翻译层。摩尔线程、沐曦、壁仞、天数智芯等芯片,通过翻译层已经具备较强 CUDA 兼容性,因此不一定需要 TileLang。

图:原文用国产 AI 硬件发布场景承接“更多硬件可用”的判断。
更便宜的硬件,打开更大的训练项目有了更多潜在硬件选项,再加上计算需求本身下降,DeepSeek 就可以做更有野心的训练项目,尤其是 RL 后训练(用奖励信号在基座模型之后继续强化能力)。
RL 需要生成大量轨迹(模型完成任务的一整段尝试过程),也就是生成数万亿 token。成本会迅速上升。要训练 100 万上下文模型,还需要生成同样长度的轨迹。训练这种长轨迹模型,才能支撑长周期任务。
更重要的是,更多硬件可用,会让 DeepSeek 有能力做 automated research(自动化研究),也就是 RSI(Recursive Self-Improvement,递归自我改进,让 AI 自己设计实验、执行实验、再改进下一轮研究)。这个过程需要大量试错,成本很容易变得非常高。
但 RSI 对探索完整设计空间很重要。DeepSeek 想在通向 AGI(通用人工智能)再通向 ASI(超级人工智能)的路上继续前进,就必须具备 RSI 能力。
DeepSeek 围绕 MoE、MLA、DSA 的创新,已经被全球和中国其他 AI 实验室吸收。例如,Z.ai 的 GLM 系列模型使用了 MLA 和 DSA。Kimi(Moonshot)也采用了 MLA,并且很坦率地表示自己的架构基于 DeepSeek 架构。
反过来,DeepSeek 使用了 Muon optimizer(优化器,训练时调整模型参数的算法)。Muon 最早由 Kimi(Moonshot)用于大规模训练。
这里补充两点:MoE 并不是 DeepSeek 发明的,原文此处引用信息抓取缺失。DeepSeek 的贡献在于把它大规模应用,并发明了自己的技巧。Muon(MomentUm Orthogonalized by Newton-Schulz)优化器由机器学习研究者 Keller Jordan 在 2024 年末创建,Kimi(Moonshot)团队是第一个大规模使用它的团队。
OpenAI 的例子:硬件合作可以绑定股权收益我们看 OpenAI 的一个有意思的例子。
OpenAI 获得了 AMD 和 Cerebras 的认股权证 / 期权(未来按约定价格买入股票的权利),可以在达到一定消费里程碑后,以较低价格买入它们的股票。这对 AMD 和 Cerebras 是一笔好交易。OpenAI 承诺使用它们的硬件,会让它们长期成功的概率显著提高。
AMD 的公告大意是:为了进一步对齐战略利益,AMD 向 OpenAI 发行了最多 1.6 亿股普通股的认股权证。这些权证会随着特定里程碑达成而逐步归属。第一批会在初始 1GW(吉瓦,数据中心算力部署规模单位)部署时归属,后续批次会随着采购扩展到 6GW 而归属。归属还与 AMD 达到特定股价目标,以及 OpenAI 达到让 AMD 大规模部署所需的技术和商业里程碑有关。

图:把原文的 AMD 公告截图重置成中文图,解释“算力承诺 股权收益”的合作模式。
我预测 DeepSeek 会和多个中国内存、ASIC、CPU、网络技术栈厂商签订类似协议,并与它们紧密合作,让它们的硬件栈能够承载领先 AI 工作负载。
西方(包括东亚盟友)AI 股票的总估值已经远超 10 万亿美元。通过这种"合作并获得股权回报"的方式,DeepSeek 可以帮助中国创造一个同等规模的大产业,并在其中拿到自己的份额,同时实现 1 万亿美元估值。

图:原文列出的关键 AI 与半导体公司市值
这样,它能赚到远比卖订阅更多的钱,同时实现自己口中的"AGI for everyone"。
梁文锋是 Jim Simons 的粉丝,也是一位非常聪明的资本主义者。他不会错过这件事。把 DeepSeek 到目前为止做过的事放在一起看,这就是唯一说得通的解释。
原文最后说,更详细的技术创新博客会在本周末发布,感兴趣可以关注他的 Substack。
译者小结这篇文章的核心判断,一句话就能说完:
DeepSeek 通过模型架构和内存效率创新,把"训练和推理必须依赖最顶级 HBM 与 GPU"的前提打松,然后让 NAND、LPDDR、国产 GPU / ASIC、网络芯片都有机会进入 AI 基础设施牌桌。
如果这个判断成立,DeepSeek 的商业模式就不是"卖模型应用",而是"用开源模型和算法创新做硬件生态的需求发动机",并通过股权合作分享整个产业链的增长。
相关文章




猜你喜欢
成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体113339