> 自媒体 > (AI)人工智能 > Qwen2.5长上下文推理提速2.66倍!加州大学\u0026NVIDIA提出CPU-GPU协同混合注意力计算框架HybridGen
Qwen2.5长上下文推理提速2.66倍!加州大学\u0026NVIDIA提出CPU-GPU协同混合注意力计算框架HybridGen
来源:智猩猩
2026-05-03 08:55:08
220
管理

智猩猩AI整理

编辑:林夕

在大型语言模型(LLM)领域,随着GPT-4、Gemini 3Pro等模型将上下文长度推向数百万token的新高度,KV缓存的爆炸式增长。

现有优化方案存在显著局限:

基于KV 缓存剪枝的方法会丢弃部分历史 token,直接造成模型精度下降;

基于KV 缓存卸载的方法在CPU与GPU间频繁传输张量,数据传输开销极高;

传统架构仅依赖单一设备完成注意力计算,硬件资源利用率低、负载失衡严重;

面向 CXL 扩展内存的方案未充分考虑NUMA 延迟,内存访问效率难以保障。

在这样的背景下,如何在几乎不损失精度、不依赖超大显存、充分释放 CPU GPU 算力前提下,把长上下文推理跑快,成为学界与工业界的共同难题。

针对以上痛点,加州大学默塞德分校与NVIDIA联合提出高效混合注意力计算框架HybridGen,通过三大原创技术,彻底破解长上下文LLM推理三大核心障碍。

HybridGen核心思路十分简洁清晰:让CPU与GPU基于各自本地内存做协同混合注意力计算,一边并行计算、一边动态均衡负载,同时用语义感知策略高效使用CXL扩展内存,最终在几乎不损失精度的前提下,把长上下文LLM推理速度提升1.41×–3.2×。

图9 跨 GPU 平台(A100/H100)性能加速效果

(6)精度保持:几乎无损,远超剪枝类方法

图10在PIQA、OpenBookQA、COPA、RTE四项任务测试中,HybridGen相对全注意力精度损失仅0.02,几乎无损。而StreamingLLM、InfiniGen等静态剪枝方法在长距离依赖任务上明显下降。

图12 不同数据集下,各类反馈调度器配置的模型准确率

04 总结

HybridGen通过CPU-GPU混合注意力机制,用一套轻量、通用、可直接部署的软件架构,系统性解决超长上下文LLM推理的显存瓶颈、算力失衡、内存延迟三大难题。

无需修改硬件、可无缝接入vLLM、SGLang等主流推理框架,保持精度的同时实现大幅加速,为百万token级长上下文推理提供了可落地、可扩展的工业级方案。

END

入群申请

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
关于作者
素素鴉(普通会员)
文章
2092
关注
0
粉丝
1
点击领取今天的签到奖励!
签到排行

成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体114249

0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索