大模型越来越强,但“为什么会这样回答”依然是开发者最头疼的问题之一。
模型突然混用语言、在安全请求上误拒,或者陷入重复输出时,传统调试手段往往只能看到输入和输出,很难定位到模型内部到底激活了哪些行为特征。
5月1日消息,Qwen 团队发布 Qwen-Scope,一套开源的稀疏自编码器(Sparse Autoencoder,SAE)工具包,覆盖 Qwen3 与 Qwen3.5 系列模型。
简单理解,它像是给大语言模型装上了一台“特征显微镜”:把隐藏层中难以解释的高维向量,拆成更稀疏、更可读的特征字典,让开发者有机会直接观察并调节模型内部行为。
这次发布的规模并不小。公开信息显示,Qwen-Scope 提供 14 组 SAE 权重,覆盖 7 个模型变体,包括 Qwen3-1.7B、Qwen3-8B、Qwen3.5-2B、Qwen3.5-9B、Qwen3.5-27B 五个稠密模型,以及 Qwen3-30B-A3B、Qwen3.5-35B-A3B 两个 MoE 模型。Hugging Face 上的 Qwen-Scope 集合也已上线,包含多组按模型、宽度和 Top-K 设置划分的 SAE 权重。
SAE 到底能做什么?
SAE 的核心作用,是在模型前向推理时读取某一层的 residual stream,并将其分解成一组稀疏特征。每次只有少量特征被激活,因此相比原始隐藏状态,这些特征更容易对应到“语言倾向”“风格偏好”“安全行为”“能力片段”等可理解概念。
以 Qwen3.5-27B 对应的一组权重为例,其 SAE 覆盖 0 到 63 层,每层一个 checkpoint,隐藏维度为 5120,SAE 宽度为 81920,扩展倍率 16 倍,Top-K 为 50。也就是说,开发者可以在指定层捕获模型内部激活,再查看哪些稀疏特征真正参与了当前输出。
从研究工具到开发工具:四类典型用途
第一,推理时干预。Qwen-Scope 可以在不修改模型权重的情况下,通过增加或削弱某些特征方向来影响输出行为。报道中提到的案例包括:模型在英文提示下意外混入中文时,研究人员定位到高激活的中文语言特征并进行抑制,从而消除语言混杂;也可以主动激活古汉语风格特征,让故事续写更接近文言表达。
第二,评测分析。传统评测需要在大量 benchmark 上重复跑模型,成本较高。Qwen-Scope 的思路是用特征激活来分析评测样本分布:如果两个 benchmark 激活了高度重叠的特征,它们可能在考察相似能力;如果重叠度低,则更有保留价值。报道显示,团队提出的特征冗余指标与基于性能的冗余结果有较高相关性,并观察到 GSM8K 的大量特征已被 MATH 覆盖。
第三,数据与安全工作流。SAE 特征可以被用作轻量分类器,帮助识别多语言有害内容,也能用于安全数据合成:先找出现有监督数据未覆盖的安全特征,再生成能激活这些特征的训练样本。相比随机采样,这种“按特征补盲”的方式更接近数据工程里的定向补洞。
第四,后训练优化。Qwen-Scope 还尝试把 SAE 特征引入 SFT 和强化学习阶段。例如针对多语言模型的意外 code-switching,团队通过 SAE 找到特定语言特征,并在训练中加入约束来降低非目标语言激活;针对模型重复输出,则利用特征引导构造稀有负样本,让 RL 过程更容易学习到避免重复的信号。
过去,模型可解释性常被视为偏研究的问题,离产品落地有一段距离。Qwen-Scope 的意义在于,它把“看懂模型内部”与实际开发流程连接起来:不仅能解释模型为什么出错,还能参与评测去重、数据筛选、安全增强和训练改进。
对模型平台、AI 应用团队和安全评测团队来说,这类工具有望降低调试成本,也让模型治理从“结果层面纠错”进一步走向“特征层面诊断”。
不过也要看到,SAE 并不是万能答案。特征是否稳定、是否跨模型可迁移、干预是否会带来副作用,仍需要在更多场景中验证。Qwen 团队也在模型卡中提醒,解释性工具应服务于科学研究和合规开发,不能被用于干扰模型能力或生成、传播有害内容。
相关文章









猜你喜欢
成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体106516