LLM近期重大架构进化一览：从Gemma 4到DeepSeek V4-工信会

> 自媒体 > （AI）人工智能 > LLM近期重大架构进化一览：从Gemma 4到DeepSeek V4

LLM近期重大架构进化一览：从Gemma 4到DeepSeek V4

来源：机器之心Pro

2026-05-24 11:40:29

管理

Gemma 4 架构示意图

Gemma 4 E2B 与 E4B 的第一个小型架构改动，是采用了「共享 KV Cache」机制：后续层会复用前面层已经计算出的 Key-Value 状态，从而降低长上下文场景下的显存占用与计算成本。

这种方法并不是 Gemma 4 首创。例如 NeurIPS 2024 的论文《Reducing Transformer Key-Value Cache Size with Cross-Layer Attention》已经提出类似思路。但 Gemma 4 是第一次将其大规模应用于主流开源架构中。

为什么 KV Cache 如此重要？

正如我最近几个月不断提到的，当前 LLM 架构设计中的一个核心主题，就是「缩小 KV Cache」。而缩小 KV Cache 的根本目的，是降低模型运行所需的显存占用，从而支持更长的上下文窗口。这一点在推理模型和 Agent 时代尤其重要。

举一个经典的例子（Gemma 4 目前依然在使用）：Grouped Query Attention（GQA）本身就已经通过让多个 Query Head 共享同一组 Key-Value（KV）Head，来减少 KV Cache 的大小，如下图所示。

Gemma 4 的跨层 KV 共享机制

如前所述，Gemma 4 使用了 GQA。不过，除了 GQA 中不同 Query Head 之间的 KV 共享之外，Gemma 4 还进一步在不同 Transformer Layer 之间共享 KV Projection，而不是像传统做法那样，在每一层 Attention 模块中分别计算自己的 KV。

这种 KV 共享机制也被称为 Cross-Layer Attention，其结构如下图所示。

Gemma 4 E2B 类似配置中，GQA 与跨层 KV 共享带来的 KV Cache 显存节省效果

当然，KV Sharing 的缺点在于，它本质上是一种对完整 Attention 计算的「近似」。更准确地说，它会削弱模型容量。

不过，根据 Cross-Layer Attention 论文中的实验结果，在被测试的小规模模型上，这种影响可以非常有限。

Gemma 4 E2B / E4B：

Per-Layer Embeddings（PLE）与「有效参数量」

Gemma 4 的 E2B 与 E4B 版本还引入了第二种以效率为导向的设计：Per-Layer Embeddings（PLE，逐层嵌入）。这一机制与前面提到的 KV Sharing 是相互独立的。

KV Sharing 的目标是缩小 KV Cache，而 PLE 关注的则是参数效率（parameter efficiency）：它让小尺寸的 Gemma 4 模型能够携带更多 token-specific information（与 token 相关的特征信息），但又不会让整个 Transformer 主干像同参数量 Dense 模型那样昂贵。

例如，Gemma 4 E2B 与 E4B 中的「E」，代表的就是「effective」（有效参数量）。具体来说：

Gemma 4 E2B 标注为 2.3B effective parameters，但如果把 embedding 参数也算进去，总参数量实际上达到 5.1B；Gemma 4 E4B 的 effective parameters 为 4.5B，而包含 embedding 后则约为 8B。

换句话说，在这些「E」系列模型中，真正负责主要计算的 Transformer Stack，其计算规模更接近前面的较小数字；而后面的总参数量，则包含了额外的 embedding table。

从概念上来看，PLE 的结构大致如下：

Laguna 中的逐层 Query-Head Budgeting。其中 Full Attention Layer 每个 KV Head 对应 6 个 Query Head； Sliding Window Attention Layer 每个 KV Head 对应 8 个 Query Head。

因此，Laguna XS.2 的实际做法是：给 Sliding-Window Layer 分配更多 Query Head，给 Global Layer 分配更少 Query Head，同时将 KV Head 数固定为 8。

这才是真正意义上的「Layer-wise Head Budgeting」。

Laguna XS.2 是近期 open model 中最具代表性的逐层 Query-Head Budgeting 实践之一。不过，更广义上的「按层动态分配模型容量」这一思路，其实至少可以追溯到 Apple 在 2024 年提出的 OpenELM。

为什么这样设计？

和 KV Sharing 类似，它的核心目标依然是：把 Attention Capacity 花在最值得的地方，而不是让所有 Layer 平均分配相同预算。

具体来说，Full Attention Layer 因为需要访问整个上下文窗口，本身计算代价就更高，因此 Laguna 会相对减少它们的 Query Head 数量；而计算成本更低的 Sliding-Window Layer，则可以拥有更多 Query Head。

（此外，还有一个较小的实现细节：Laguna 还采用了 per-head attention-output gating，这一点与 Qwen3-Next 等模型有些类似。不过由于我之前已经讨论过类似机制，因此这里不再展开。）

ZAYA1-8B：压缩卷积注意力（CCA）

和 Laguna 类似，ZAYA1-8B 也是一位新玩家。它由 Zyphra 开发，而这次发布中一个很有意思的细节是：该模型并不是基于更常见的 NVIDIA GPU（或 Google TPU）训练，而是使用 AMD GPU 完成训练的。

不过，真正关键的架构设计，是一种名为 Compressed Convolutional Attention（CCA，压缩卷积注意力）的机制，并且它与 Grouped-Query Attention（GQA）共同使用。

与 MLA（Multi-head Latent Attention）这类主要把 latent representation 当作紧凑 KV Cache 格式的设计不同，CCA 会直接在压缩后的 latent space 中完成 Attention 计算。不过这一点我们后面再详细展开。

（顺带一提：ZAYA1-8B 的 config.json 中实际上列出了 80 个交替出现的 layer entry，而不是传统意义上的 40 个 Transformer Block。这些 layer 在结构上会在 CCA/GQA Attention 与 MoE Feed-Forward Layer 之间交替出现。不过在架构图里，把它们简化理解成 40 个重复的「Attention MoE」 Pair 会更直观，两种表示在概念上是等价的。）

普通 Multi-head Attention（MHA）与 Multi-head Latent Attention（MLA）对比。

而 CCA 则更进一步，它不仅压缩 K、V，还同时压缩 Q，并且直接在压缩后的 latent space 中完成 Attention 运算。也正因为如此，CCA 不仅能够减少 KV Cache 的大小，还能够降低 Prefill 阶段与训练阶段的 Attention FLOPs。

CCA 论文中的实验结果标注图。

总体来说，这部分真正有意思的地方，其实是新的 Attention 机制本身。

当然，ZAYA1-8B 同时也采用了相当激进（也就是非常稀疏）的 MoE 结构：每个 token 只激活一个 routed expert。不过这一点相对已经比较常见。

真正更特殊的是 CCA，它直接在压缩 latent space 中执行 Attention 计算，并通过对压缩后的 Q/K 做卷积混合，来缓解压缩 Attention 本身表达能力受限的问题。

简而言之，ZAYA1-8B 不只是想在 Feed-Forward Layer 上节省计算量，它甚至试图从 Attention Mechanism 本身开始降低计算成本。

DeepSeek V4：mHC 与压缩注意力

DeepSeek V4 是今年最受关注的大模型之一。有意思的是，如果按照 active-parameter share（活跃参数占比）来衡量，DeepSeek V4-Pro 同时也是参数最稀疏的 MoE 模型。

关于 DeepSeek V4，其实有很多可以讨论的内容。不过由于它已经在新闻与社区中被广泛讨论，同时为了继续聚焦「架构层面的改动」，这里我主要关注两个相较以往架构真正新的部分：

用于扩展 Residual Path 的 mHC；用于长上下文 Attention 压缩与稀疏化的 CSA/HCA。

从下图中的 DeepSeek V4 架构图来看，整个结构似乎非常复杂。不过，一个比较有效的阅读方式是将 Residual Path 上的改动（mHC），与 Attention Path 上的改动（CSA/HCA 与 Compressed Attention Cache）分开理解。

DeepSeek V4-Pro 架构概览。

5.1 mHC：流形约束超连接

我们先从 DeepSeek V4 中的 mHC 组件开始。

这一设计最早来自 DeepSeek 团队在去年（2025 年 12 月 31 日）发布的一篇研究论文《mHC: Manifold-Constrained Hyper-Connections》。不过，当时论文中的实验只在一个 27B 规模的实验模型上完成。而如今，我们已经在他们的旗舰模型中看到了这一机制，这也意味着，这一想法很可能已经在真实生产环境中被验证有效。

mHC 的核心目标，是重新设计 Transformer Block 内部的 Residual Connection。这一点其实非常新鲜，因为近年来绝大多数架构改动，通常都集中在Attention Mechanism、Normalization Layer 的放置方式与MoE 结构本身。

mHC 本身建立在更早的 Hyper-Connections 工作之上（见 Zhu 等人 2024 年论文《Hyper-connections》），因此我们需要先简单理解一下 Hyper-Connections。

传统 Transformer 中，只有一条单独的 Residual Stream。而 Hyper-Connections 会把它替换成：多条并行 Residual Stream，并通过可学习映射（learned mappings）在它们之间交换信息。

Hyper-Connections 的核心思想，是「扩宽 Residual Stream」。

可以把它理解为模型同时维护多条并行 Residual Path，并额外加入一个 Res Mapping 线性变换，在不同 Residual Stream 之间进行信息混合。

由于 Attention Layer 或 MoE Layer 本身仍然工作在普通 Hidden Size 上，因此 Hyper-Connections 还会增加：

Pre Mapping：把多条 Residual Stream 合并成单一 Hidden Vector；Post Mapping：再把 Layer 输出重新分发回多个 Residual Stream。

普通 Transformer Block（上）与带 Hyper-Connections 的 Transformer Block（下）。

上图主要展示了 Attention Branch 中的结构，但同样的思想也适用于围绕 MoE Layer 的第二条 Residual Branch。

Hyper-Connections 的目的，是在不真正扩大 Attention 或 MoE Layer 本身宽度的情况下，让 Residual Path 拥有更强表达能力。

而它带来的 FLOPs 增长其实很有限，因为这些额外映射只作用在较小的 residual-stream 维度上（例如 DeepSeek V4 中 n=4），而不是作用在巨大的 hidden dimension 上。

在最初的 Hyper-Connections 论文中，7B OLMo MoE 模型的 FLOPs per token 从 13.36G 增加到 13.38G，几乎没有变化；而性能指标则获得了稳定但温和的提升。

当然，只看 FLOPs 其实有些过于简单。因为扩宽后的 Residual State 依然需要存储、在显存中移动并参与混合计算。因此，真正的额外开销更多可能来自Memory Traffic 与 Implementation Complexity，而不仅仅是算术计算本身。

不过考虑到 DeepSeek V4 整体都在追求效率，这看起来依然是一个值得加入的设计。

采用 HC 与 mHC 的 Transformer Block。

在 mHC 论文中，DeepSeek 团队基于 27B 模型实验表明：在使用融合优化（fusion）、重计算（recomputation）与 pipeline scheduling 后，即使在整个 Transformer 中使用 4 条 Residual Stream（n=4），训练时间额外开销也仅增加约 6.7%。

总结来说：HC/mHC 的本质，是通过把单一 Residual Stream 替换为多条相互交互的 Residual Stream，重新定义信息在 Transformer Layer 中的传播方式。mHC 则进一步加入稳定性约束，同时只带来很小的计算额外开销。

此外，它也与后面将介绍的 CSA/HCA Attention 改动形成了很好的配合。

通过 CSA 与 HCA 实现压缩 Attention

DeepSeek V4 的另一项核心架构升级，发生在 Attention 部分。其背后的动机依然非常明确：在超长上下文场景下，Attention 的成本不仅来自 Attention Score 本身的计算，还来自 KV Cache 会随着 Sequence Length 持续增长。

DeepSeek V4 针对这一问题，引入了两种压缩 Attention 机制的混合设计：

Compressed Sparse Attention（CSA）Heavily Compressed Attention（HCA）

首先需要注意的是：DeepSeek V4 中的 CSA/HCA，与 DeepSeek V2/V3 中 MLA 风格的压缩并不是同一种思路。

MLA 的压缩对象主要是「每个 token 对应的 KV 表示」，而 CSA/HCA 压缩的则是「Sequence Dimension 本身」。

也就是说，它们不再为每个历史 token 都保留一个完整（或压缩）KV Entry，而是把一组 token 汇总成更少的压缩 KV Entry，因此整个 Cache 本身也变短了。

CSA 与 HCA 的对比。

CSA 与 HCA 在某种程度上是互补的，这也是为什么 DeepSeek V4 会交替使用它们，而不是只采用其中一种。

根据 DeepSeek V4 论文，在 1M Token Context 下，相比采用 MLA 与 DSA 的 DeepSeek V3.2：DeepSeek V4-Pro 的单 token 推理 FLOPs 仅为后者的 27%，KV Cache 大小仅为后者的 10%。

而 DeepSeek V4-Flash 更进一步：FLOPs 降至 10%，KV Cache 降至 7%。

DeepSeek V4 相较 DeepSeek V3.2 的 1M Context 效率数据。

不过，我并不会简单地把 CSA/HCA 定义为「比 MLA 更好」。CSA/HCA 本质上是一种更激进、更偏向长上下文效率的设计，而且它本身也更加复杂。

遗憾的是，论文中并没有提供完整的 Ablation Study。不过整体来看，论文确实展示了非常强的最终结果，例如：DeepSeek V4-Flash-Base 在多数 Base Benchmark 上超过 DeepSeek V3.2-Base；同时拥有很强的 1M-token Retrieval 能力。

但需要注意的是，这些结果来自整个 DeepSeek V4 完整训练体系，包括：更好的数据、基于 Muon 的优化、mHC、精度与存储优化以及训练推理系统优化；

而不仅仅是 CSA/HCA 本身。就我个人而言，目前我更倾向于把 CSA/HCA 看作：

一种以效率为核心的长上下文设计。它似乎能够在大型旗舰模型中很好地保留模型质量，但并不意味着它在所有场景下都绝对优于 MLA。

总结

2026 年的新一代开源 LLM，一个非常明显的趋势是：大家都在尝试降低长上下文成本，但并不是简单地通过缩小模型总参数量来实现，而是通过大量结构级优化。

Gemma 4：跨层 KV 共享 PLELaguna：分层 Attention BudgetZAYA1：压缩 latent attentionDeepSeek V4：mHC CSA/HCA

Transformer Block 仍然在持续演化，但这种变化已经变得越来越定向化。

相比 GPT-2 时代几十行 PyTorch 就能实现，如今的 Attention Variant，代码复杂度可能已经增长了 10 倍。

但这些复杂化的目的并不是增加成本，而是为了实现真正的超长上下文推理。

但另一方面，理解这些组件本身，以及它们之间如何相互作用，也正在变得越来越困难。

从 GPT-2（2019）到 DeepSeek V4-Pro（2026）的演化过程。

对此，你怎么看？

赏礼

赏钱

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

ChatGPT 对话太多，之前聊的好东西找不到了

半小时前

我用DeepSeek V4做出了史上最离谱的重生模拟器

半小时前