> 自媒体 > (AI)人工智能 > LLM近期重大架构进化一览:从Gemma 4到DeepSeek V4
LLM近期重大架构进化一览:从Gemma 4到DeepSeek V4
来源:机器之心Pro
2026-05-24 11:40:29
25
管理

Gemma 4 架构示意图

Gemma 4 E2B 与 E4B 的第一个小型架构改动,是采用了「共享 KV Cache」机制:后续层会复用前面层已经计算出的 Key-Value 状态,从而降低长上下文场景下的显存占用与计算成本。

这种方法并不是 Gemma 4 首创。例如 NeurIPS 2024 的论文《Reducing Transformer Key-Value Cache Size with Cross-Layer Attention》已经提出类似思路。但 Gemma 4 是第一次将其大规模应用于主流开源架构中。

为什么 KV Cache 如此重要?

正如我最近几个月不断提到的,当前 LLM 架构设计中的一个核心主题,就是「缩小 KV Cache」。而缩小 KV Cache 的根本目的,是降低模型运行所需的显存占用,从而支持更长的上下文窗口。这一点在推理模型和 Agent 时代尤其重要。

举一个经典的例子(Gemma 4 目前依然在使用):Grouped Query Attention(GQA)本身就已经通过让多个 Query Head 共享同一组 Key-Value(KV)Head,来减少 KV Cache 的大小,如下图所示。

Gemma 4 的跨层 KV 共享机制

如前所述,Gemma 4 使用了 GQA。不过,除了 GQA 中不同 Query Head 之间的 KV 共享之外,Gemma 4 还进一步在不同 Transformer Layer 之间共享 KV Projection,而不是像传统做法那样,在每一层 Attention 模块中分别计算自己的 KV。

这种 KV 共享机制也被称为 Cross-Layer Attention,其结构如下图所示。

Gemma 4 E2B 类似配置中,GQA 与跨层 KV 共享带来的 KV Cache 显存节省效果

当然,KV Sharing 的缺点在于,它本质上是一种对完整 Attention 计算的「近似」。更准确地说,它会削弱模型容量。

不过,根据 Cross-Layer Attention 论文中的实验结果,在被测试的小规模模型上,这种影响可以非常有限。

Gemma 4 E2B / E4B:

Per-Layer Embeddings(PLE)与「有效参数量」

Gemma 4 的 E2B 与 E4B 版本还引入了第二种以效率为导向的设计:Per-Layer Embeddings(PLE,逐层嵌入)。这一机制与前面提到的 KV Sharing 是相互独立的。

KV Sharing 的目标是缩小 KV Cache,而 PLE 关注的则是参数效率(parameter efficiency):它让小尺寸的 Gemma 4 模型能够携带更多 token-specific information(与 token 相关的特征信息),但又不会让整个 Transformer 主干像同参数量 Dense 模型那样昂贵。

例如,Gemma 4 E2B 与 E4B 中的「E」,代表的就是「effective」(有效参数量) 。具体来说:

Gemma 4 E2B 标注为 2.3B effective parameters,但如果把 embedding 参数也算进去,总参数量实际上达到 5.1B;Gemma 4 E4B 的 effective parameters 为 4.5B,而包含 embedding 后则约为 8B。

换句话说,在这些 「E」系列模型中,真正负责主要计算的 Transformer Stack,其计算规模更接近前面的较小数字;而后面的总参数量,则包含了额外的 embedding table。

从概念上来看,PLE 的结构大致如下:

Laguna 中的逐层 Query-Head Budgeting。其中 Full Attention Layer 每个 KV Head 对应 6 个 Query Head; Sliding Window Attention Layer 每个 KV Head 对应 8 个 Query Head。

因此,Laguna XS.2 的实际做法是:给 Sliding-Window Layer 分配更多 Query Head,给 Global Layer 分配更少 Query Head,同时将 KV Head 数固定为 8。

这才是真正意义上的 「Layer-wise Head Budgeting」。

Laguna XS.2 是近期 open model 中最具代表性的逐层 Query-Head Budgeting 实践之一。不过,更广义上的「按层动态分配模型容量」这一思路,其实至少可以追溯到 Apple 在 2024 年提出的 OpenELM。

为什么这样设计?

和 KV Sharing 类似,它的核心目标依然是:把 Attention Capacity 花在最值得的地方,而不是让所有 Layer 平均分配相同预算。

具体来说,Full Attention Layer 因为需要访问整个上下文窗口,本身计算代价就更高,因此 Laguna 会相对减少它们的 Query Head 数量;而计算成本更低的 Sliding-Window Layer,则可以拥有更多 Query Head。

(此外,还有一个较小的实现细节:Laguna 还采用了 per-head attention-output gating,这一点与 Qwen3-Next 等模型有些类似。不过由于我之前已经讨论过类似机制,因此这里不再展开。)

ZAYA1-8B:压缩卷积注意力(CCA)

和 Laguna 类似,ZAYA1-8B 也是一位新玩家。它由 Zyphra 开发,而这次发布中一个很有意思的细节是:该模型并不是基于更常见的 NVIDIA GPU(或 Google TPU)训练,而是使用 AMD GPU 完成训练的。

不过,真正关键的架构设计,是一种名为 Compressed Convolutional Attention(CCA,压缩卷积注意力)的机制,并且它与 Grouped-Query Attention(GQA)共同使用。

与 MLA(Multi-head Latent Attention)这类主要把 latent representation 当作紧凑 KV Cache 格式的设计不同,CCA 会直接在压缩后的 latent space 中完成 Attention 计算。不过这一点我们后面再详细展开。

(顺带一提:ZAYA1-8B 的 config.json 中实际上列出了 80 个交替出现的 layer entry,而不是传统意义上的 40 个 Transformer Block。这些 layer 在结构上会在 CCA/GQA Attention 与 MoE Feed-Forward Layer 之间交替出现。不过在架构图里,把它们简化理解成 40 个重复的 「Attention MoE」 Pair 会更直观,两种表示在概念上是等价的。)

普通 Multi-head Attention(MHA)与 Multi-head Latent Attention(MLA)对比。

而 CCA 则更进一步,它不仅压缩 K、V,还同时压缩 Q,并且直接在压缩后的 latent space 中完成 Attention 运算。也正因为如此,CCA 不仅能够减少 KV Cache 的大小,还能够降低 Prefill 阶段与训练阶段的 Attention FLOPs。

CCA 论文中的实验结果标注图。

总体来说,这部分真正有意思的地方,其实是新的 Attention 机制本身。

当然,ZAYA1-8B 同时也采用了相当激进(也就是非常稀疏)的 MoE 结构:每个 token 只激活一个 routed expert。不过这一点相对已经比较常见。

真正更特殊的是 CCA,它直接在压缩 latent space 中执行 Attention 计算,并通过对压缩后的 Q/K 做卷积混合,来缓解压缩 Attention 本身表达能力受限的问题。

简而言之,ZAYA1-8B 不只是想在 Feed-Forward Layer 上节省计算量,它甚至试图从 Attention Mechanism 本身开始降低计算成本。

DeepSeek V4:mHC 与压缩注意力

DeepSeek V4 是今年最受关注的大模型之一。有意思的是,如果按照 active-parameter share(活跃参数占比)来衡量,DeepSeek V4-Pro 同时也是参数最稀疏的 MoE 模型。

关于 DeepSeek V4,其实有很多可以讨论的内容。不过由于它已经在新闻与社区中被广泛讨论,同时为了继续聚焦「架构层面的改动」,这里我主要关注两个相较以往架构真正新的部分:

用于扩展 Residual Path 的 mHC;用于长上下文 Attention 压缩与稀疏化的 CSA/HCA。

从下图中的 DeepSeek V4 架构图来看,整个结构似乎非常复杂。不过,一个比较有效的阅读方式是将 Residual Path 上的改动(mHC),与 Attention Path 上的改动(CSA/HCA 与 Compressed Attention Cache)分开理解。

DeepSeek V4-Pro 架构概览。

5.1 mHC:流形约束超连接

我们先从 DeepSeek V4 中的 mHC 组件开始。

这一设计最早来自 DeepSeek 团队在去年(2025 年 12 月 31 日)发布的一篇研究论文《mHC: Manifold-Constrained Hyper-Connections》。不过,当时论文中的实验只在一个 27B 规模的实验模型上完成。而如今,我们已经在他们的旗舰模型中看到了这一机制,这也意味着,这一想法很可能已经在真实生产环境中被验证有效。

mHC 的核心目标,是重新设计 Transformer Block 内部的 Residual Connection。这一点其实非常新鲜,因为近年来绝大多数架构改动,通常都集中在Attention Mechanism、Normalization Layer 的放置方式与MoE 结构本身。

mHC 本身建立在更早的 Hyper-Connections 工作之上(见 Zhu 等人 2024 年论文《Hyper-connections》),因此我们需要先简单理解一下 Hyper-Connections。

传统 Transformer 中,只有一条单独的 Residual Stream。而 Hyper-Connections 会把它替换成:多条并行 Residual Stream,并通过可学习映射(learned mappings)在它们之间交换信息。

Hyper-Connections 的核心思想,是「扩宽 Residual Stream」。

可以把它理解为模型同时维护多条并行 Residual Path,并额外加入一个 Res Mapping 线性变换,在不同 Residual Stream 之间进行信息混合。

由于 Attention Layer 或 MoE Layer 本身仍然工作在普通 Hidden Size 上,因此 Hyper-Connections 还会增加:

Pre Mapping:把多条 Residual Stream 合并成单一 Hidden Vector;Post Mapping:再把 Layer 输出重新分发回多个 Residual Stream。

普通 Transformer Block(上)与带 Hyper-Connections 的 Transformer Block(下)。

上图主要展示了 Attention Branch 中的结构,但同样的思想也适用于围绕 MoE Layer 的第二条 Residual Branch。

Hyper-Connections 的目的,是在不真正扩大 Attention 或 MoE Layer 本身宽度的情况下,让 Residual Path 拥有更强表达能力。

而它带来的 FLOPs 增长其实很有限,因为这些额外映射只作用在较小的 residual-stream 维度上(例如 DeepSeek V4 中 n=4),而不是作用在巨大的 hidden dimension 上。

在最初的 Hyper-Connections 论文中,7B OLMo MoE 模型的 FLOPs per token 从 13.36G 增加到 13.38G,几乎没有变化;而性能指标则获得了稳定但温和的提升。

当然,只看 FLOPs 其实有些过于简单。因为扩宽后的 Residual State 依然需要存储、在显存中移动并参与混合计算。 因此,真正的额外开销更多可能来自Memory Traffic 与 Implementation Complexity,而不仅仅是算术计算本身。

不过考虑到 DeepSeek V4 整体都在追求效率,这看起来依然是一个值得加入的设计。

采用 HC 与 mHC 的 Transformer Block。

在 mHC 论文中,DeepSeek 团队基于 27B 模型实验表明:在使用融合优化(fusion)、重计算(recomputation)与 pipeline scheduling 后,即使在整个 Transformer 中使用 4 条 Residual Stream(n=4),训练时间额外开销也仅增加约 6.7%。

总结来说:HC/mHC 的本质,是通过把单一 Residual Stream 替换为多条相互交互的 Residual Stream,重新定义信息在 Transformer Layer 中的传播方式。mHC 则进一步加入稳定性约束,同时只带来很小的计算额外开销。

此外,它也与后面将介绍的 CSA/HCA Attention 改动形成了很好的配合。

通过 CSA 与 HCA 实现压缩 Attention

DeepSeek V4 的另一项核心架构升级,发生在 Attention 部分。其背后的动机依然非常明确:在超长上下文场景下,Attention 的成本不仅来自 Attention Score 本身的计算,还来自 KV Cache 会随着 Sequence Length 持续增长。

DeepSeek V4 针对这一问题,引入了两种压缩 Attention 机制的混合设计:

Compressed Sparse Attention(CSA)Heavily Compressed Attention(HCA)

首先需要注意的是:DeepSeek V4 中的 CSA/HCA,与 DeepSeek V2/V3 中 MLA 风格的压缩并不是同一种思路。

MLA 的压缩对象主要是「每个 token 对应的 KV 表示」,而 CSA/HCA 压缩的则是「Sequence Dimension 本身」。

也就是说,它们不再为每个历史 token 都保留一个完整(或压缩)KV Entry,而是把一组 token 汇总成更少的压缩 KV Entry,因此整个 Cache 本身也变短了。

CSA 与 HCA 的对比。

CSA 与 HCA 在某种程度上是互补的,这也是为什么 DeepSeek V4 会交替使用它们,而不是只采用其中一种。

根据 DeepSeek V4 论文,在 1M Token Context 下,相比采用 MLA 与 DSA 的 DeepSeek V3.2:DeepSeek V4-Pro 的单 token 推理 FLOPs 仅为后者的 27%,KV Cache 大小仅为后者的 10%。

而 DeepSeek V4-Flash 更进一步:FLOPs 降至 10%,KV Cache 降至 7%。

DeepSeek V4 相较 DeepSeek V3.2 的 1M Context 效率数据。

不过,我并不会简单地把 CSA/HCA 定义为「比 MLA 更好」。CSA/HCA 本质上是一种更激进、更偏向长上下文效率的设计,而且它本身也更加复杂。

遗憾的是,论文中并没有提供完整的 Ablation Study。不过整体来看,论文确实展示了非常强的最终结果,例如:DeepSeek V4-Flash-Base 在多数 Base Benchmark 上超过 DeepSeek V3.2-Base; 同时拥有很强的 1M-token Retrieval 能力。

但需要注意的是,这些结果来自整个 DeepSeek V4 完整训练体系,包括:更好的数据、基于 Muon 的优化、mHC、精度与存储优化以及训练推理系统优化;

而不仅仅是 CSA/HCA 本身。就我个人而言,目前我更倾向于把 CSA/HCA 看作:

一种以效率为核心的长上下文设计。它似乎能够在大型旗舰模型中很好地保留模型质量,但并不意味着它在所有场景下都绝对优于 MLA。

总结

2026 年的新一代开源 LLM,一个非常明显的趋势是:大家都在尝试降低长上下文成本,但并不是简单地通过缩小模型总参数量来实现,而是通过大量结构级优化。

Gemma 4:跨层 KV 共享 PLELaguna:分层 Attention BudgetZAYA1:压缩 latent attentionDeepSeek V4:mHC CSA/HCA

Transformer Block 仍然在持续演化,但这种变化已经变得越来越定向化。

相比 GPT-2 时代几十行 PyTorch 就能实现,如今的 Attention Variant,代码复杂度可能已经增长了 10 倍。

但这些复杂化的目的并不是增加成本,而是为了实现真正的超长上下文推理。

但另一方面,理解这些组件本身,以及它们之间如何相互作用,也正在变得越来越困难。

从 GPT-2(2019)到 DeepSeek V4-Pro(2026)的演化过程。

对此,你怎么看?

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
全球首个全民免费用ChatGPT Plus的国家,OpenAI官宣了
OpenAI 与马耳他政府达成全球首个国家级合作:全体公民完成 AI 素养课程..
18岁高中生用AI挖出150万未知天体,首批ChatGPT原住民毕业..
刚刚,OpenAI上线了一个叫「ChatGPT Futures」的页面。一共26个年轻人(..
AI for Science 会有 “ChatGPT 时刻” 吗?年轻人该如何下注?..
编者按当 AI 正在重构科研与产业的底层逻辑,AI for Science 早已不是纸..
OpenAI为何造手机?苹果不给的权限,ChatGPT自己抢
(本文作者为 汽车像素,钛媒体经授权发布)文 | 汽车像素AI Agent 时代..
ChatGPT 能替你管钱了,你敢把银行账户交给它吗?
5 月 15 日,OpenAI 推出了一个让很多人「既兴奋又不安」的新功能——Cha..
ChatGPT像娇小、可爱的女孩,而Claude像高冷、成熟的御姐!..
Claude 以其独特的交互设计和专业气质在 AI 工具中脱颖而出。从 Cowork ..
ChatGPT 对话太多,之前聊的好东西找不到了
AI对话的爆炸式增长让历史记录变成信息迷宫,即使精心规划的对话也会被自..
我用DeepSeek V4做出了史上最离谱的重生模拟器
上周DeepSeek V4发布,我们龙虾EasyClaw第一时间接上了,实测的确好用,..
DeepSeek 狂招评测工程师,我看懂了:大模型的盲盒时代彻底结束..
DeepSeek 等大厂重金招募AI评测专家的背后,是一场关于AI产品落地的革命..
关于作者
感恩的人(普通会员)
文章
2011
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体110306

0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索