Qwen2.5长上下文推理提速2.66倍！加州大学\u0026NVIDIA提出CPU-GPU协同混合注意力计算框架HybridGen-工信会

> 自媒体 > （AI）人工智能 > Qwen2.5长上下文推理提速2.66倍！加州大学\u0026NVIDIA提出CPU-GPU协同混合注意力计算框架HybridGen

Qwen2.5长上下文推理提速2.66倍！加州大学\u0026NVIDIA提出CPU-GPU协同混合注意力计算框架HybridGen

来源：智猩猩

2026-05-03 08:55:08

170

管理

智猩猩AI整理

编辑：林夕

在大型语言模型（LLM）领域，随着GPT-4、Gemini 3Pro等模型将上下文长度推向数百万token的新高度，KV缓存的爆炸式增长。

现有优化方案存在显著局限：

基于KV 缓存剪枝的方法会丢弃部分历史 token，直接造成模型精度下降；

基于KV 缓存卸载的方法在CPU与GPU间频繁传输张量，数据传输开销极高；

传统架构仅依赖单一设备完成注意力计算，硬件资源利用率低、负载失衡严重；

面向 CXL 扩展内存的方案未充分考虑NUMA 延迟，内存访问效率难以保障。

在这样的背景下，如何在几乎不损失精度、不依赖超大显存、充分释放 CPU GPU 算力前提下，把长上下文推理跑快，成为学界与工业界的共同难题。

针对以上痛点，加州大学默塞德分校与NVIDIA联合提出高效混合注意力计算框架HybridGen，通过三大原创技术，彻底破解长上下文LLM推理三大核心障碍。

HybridGen核心思路十分简洁清晰：让CPU与GPU基于各自本地内存做协同混合注意力计算，一边并行计算、一边动态均衡负载，同时用语义感知策略高效使用CXL扩展内存，最终在几乎不损失精度的前提下，把长上下文LLM推理速度提升1.41×–3.2×。

图9 跨 GPU 平台（A100/H100）性能加速效果

（6）精度保持：几乎无损，远超剪枝类方法

图10在PIQA、OpenBookQA、COPA、RTE四项任务测试中，HybridGen相对全注意力精度损失仅0.02，几乎无损。而StreamingLLM、InfiniGen等静态剪枝方法在长距离依赖任务上明显下降。

图12 不同数据集下，各类反馈调度器配置的模型准确率

04 总结

HybridGen通过CPU-GPU混合注意力机制，用一套轻量、通用、可直接部署的软件架构，系统性解决超长上下文LLM推理的显存瓶颈、算力失衡、内存延迟三大难题。

无需修改硬件、可无缝接入vLLM、SGLang等主流推理框架，保持精度的同时实现大幅加速，为百万token级长上下文推理提供了可落地、可扩展的工业级方案。

END

✦

✦

入群申请

✦

0

点赞

赏礼

赏钱

0

收藏

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

Qwen-Scope 开源：阿里通义给大模型装上“显微镜”

豆包使用手册（2026完整版）

相关文章

NeurIPS 2025放榜：阿里Qwen门控注意力获最佳论文

嘻疯发自凹非寺量子位 | 公众号 QbitAI刚刚，NeurIPS 2025最佳论文奖、..

阿里千问开源4款Qwen3.5小尺寸模型，满足资源受限至轻量应用不同需求..

【太平洋科技快讯】3月3日消息，阿里千问近日开源四款Qwen3.5更小尺寸模..

实测Qwen3.6-27B：4分钟做了个跑酷游戏，验证码识别正确率超90%..

它用时四分钟左右，写完了1200多行代码。从实测结果来看，游戏设计与前端..

阿里亲身入局具身智能！Qwen内部组团，通义千问技术负责人带队..

衡宇发自凹非寺量子位 | 公众号 QbitAIQwen团队内部组建了一个全新的具..

Qwen紧追OpenAI开源4B端侧大模型，AIME25得分超越Claude 4 Opus..

衡宇发自凹非寺量子位 | 公众号 QbitAI三天不开源，Qwen团队手就痒。昨..

Qwen又立功，全球最快开源模型诞生，超2000 tokens/秒

全球最快的开源大模型来了——速度达到了每秒2000个tokens！虽然只有320..

激活170亿参数 Qwen3.5实测重构大模型性价比逻辑

2月16日Qwen3.5正式开源，以3970亿总参数、仅170亿激活参数的架构实现性..

Qwen最新闭源模型曝光！实测夸克“对话助手”

10月23日，阿里旗下夸克正式上线“对话助手”。从界面上看，它像是“塞进..

林俊旸离职后，Qwen的变与不变

来源：视觉中国OpenAI早期也曾采用垂直整合的架构模式，并集中资源完成了..

关于作者

素素鴉(普通会员)

文章

1957

关注

0

粉丝

1

点击领取今天的签到奖励!

猜你喜欢

01

DeepSeek 究竟是个啥？一文带你看明白

2025/02/08

02

微信聊天时，女人说“哼哼”，10个高情商回复

2023/10/04

03

聊天交友软件常用骗局（套路）交友需小心！

2023/07/15

04

这怕是全网最强的 DeepSeek 图片教程吧，赶紧收藏了！

2025/02/09

05

AI 界黑马DeepSeek 超详细介绍

2025/02/09

标签云

成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体106516

@2022 All Rights Reserved

浙ICP备19035174号-6 技术支持：千寻网络

0

0

分享

请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索