> 自媒体 > (AI)人工智能 > LCA:DeepSeek 长文本加速神器,90% KV 缓存缩减 + 2.5 倍推理提速
LCA:DeepSeek 长文本加速神器,90% KV 缓存缩减 + 2.5 倍推理提速
来源:机器之心Pro
2026-04-30 10:25:04
125
管理

短上下文标准任务性能对比

在 MMLU、GSM8K、MBPP 等短上下文标准测试中,LCA 的性能与原始 MLA 几乎相同,表明其压缩机制不会损害模型的基础能力。

4. 兼容不同模型规模

MiniCPM3-4B 模型扩展性验证

LCA 在 MiniCPM3-4B 模型上同样有效,实现 2.2 倍预填充加速和 93% KV 缓存减少,验证了其在不同规模模型上的通用性。

5. 适配其他注意力变体

GQA 架构适配验证

LCA 的设计不依赖于 MLA,可推广到其他注意力机制。实验表明,将其适配到分组查询注意力(GQA)后,在 DeepSeek-R1-Distill-Qwen-7B 模型上仍能实现 3.25 倍推理加速和 93% 缓存减少。

五、实际意义

LCA 为长上下文 LLM 的实际部署提供了重要支持:

减少部署成本:无需增加任何额外参数和模块,即插即用替换现有模型中的 MLA/GQA 模块。降低硬件门槛:减少 90% 的 KV 缓存意味着在相同显存下可处理数倍长的上下文。提升响应速度:2.5 倍的预填充加速显著改善用户体验,特别是在需要实时交互的应用中。保持模型能力:在获得效率提升的同时,不牺牲模型在各类任务上的性能。

六、总结

LCA 通过直接在潜在空间进行上下文压缩,巧妙地将 KV 缓存减少与计算复杂度降低统一到一个框架中。其解耦的语义-位置处理策略、理论保证的近似误差界,以及广泛的实验验证,使其成为长上下文高效建模的一个有力解决方案。这项工作已被 ACL 2026 接收,期待更多研究者与开发者在此基础上进一步推动长上下文技术的发展。

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
关于作者
呼唤(普通会员)
文章
1925
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体105981

0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索