> 自媒体 > (AI)人工智能 > 奖励是假的,能让Qwen提升25%性能却是真的
奖励是假的,能让Qwen提升25%性能却是真的
来源:36氪
2026-04-30 21:03:36
86
管理

即使RLVR(可验证奖励强化学习)使用错误的奖励信号,Qwen性能也能得到显著提升?

甚至还和真实奖励相差无几。

基于GRPO方法微调Qwen2.5-Math模型,再使用不同奖励函数进行RLVR训练。

实验结果表明,与未调优的基线模型相比,所有奖励函数(即使是设计上存在问题的函数),均能在所有基准测试的前50步内显著提升数学推理性能。

值得注意的是,虚假奖励带来的性能提升,与基于真实标签的RLVR提升幅度,相差只有几个百分点。

例如,在MATH500基准上,使用错误标签奖励进行训练可提升24.6%,而基于真实答案的RLVR提升幅度只有28.8%,即使是提供纯噪音的随机奖励,也仍能带来 21.4%的性能提升。

因此团队证明,即使是完全错误的奖励或随机奖励,也能在Qwen2.5-Math模型中激发性能提升。

但在进一步的研究中,他们发现这种奇怪的增益只有利于Qwen2.5系列模型,其余非 Qwen模型的性能在虚假奖励下几乎无变化,甚至还会出现下降的趋势。

这又是怎么一回事呢?研究团队只好又开始挖掘模型差异的根源。

为什么虚假奖励有效

通过分析Qwen2.5-Math-7B和OLMo2-7B的推理轨迹,团队发现预训练期间,模型学习到的特定推理策略差异是关键。

Qwen2.5-Math-7B频繁生成Python代码辅助思考过程(占所有回答的 65.0%),尽管无法执行,但这种代码推理行为在一定程度上,与答案准确率高度正相关。

One More Thing

本项目是由多位华人学者共同完成的,他们目前都在华盛顿大学的NLP小组读博。

而当论文作者Stella Li在X上发帖介绍自己的论文时,我们注意到评论区有这样一位网友的留言,他指出在模型改进中,也许「结果不重要,推理过程才重要」

Stella Li的回复也提出了另外一种可能,也许错误推理 正确答案或者正确推理 错误答案,可能也会帮助OLMo2-7B-SFT实现类似Qwen在虚假奖励下的性能增益。

另外,作者也温馨提示,现有的以Qwen为中心的RLVR研究可能需要在非Qwen模型上做进一步验证,不要只盯着单一模型做漂亮数值提升的工作,因为那可能意义并不大。

参考链接:

[1]https://x.com/StellaLisy/status/1927392717593526780

[2]https://x.com/huybery/status/1927434422934028358

[3]https://x.com/RulinShao/status/1927442751462707524

本文来自微信公众号“量子位”,作者:关注前沿科技,36氪经授权发布。

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
Kimi团队发布K1.5:让AI像人类一样\u0026#34;边思考边学习\u0026#34;的突破..
这项由Kimi团队开展的研究发表于2025年6月3日,详细介绍了他们最新的多模..
DeepSeek对比Kimi:两个国产AI谁更适合办公?实测告诉你答案..
说实话,最近AI工具多得让人眼花缭乱。DeepSeek和Kimi,两个名字我都听过..
涉嫌违规收集个人信息 Kimi等多款AI应用被通报
5月20日,国家网络与信息安全信息通报中心发布通报,经公安部计算机信息..
阿里Qwen开源模型为什么能火?
阿里Qwen开源模型能火,是因为它用过硬的技术、开放的态度和实惠的价格,..
谁是开源大模型之王?Llama、DeepSeek还是Qwen?
“友商,你们拿什么和我比?”“友商,你们拿什么和我比?”这不是哪家公..
开源Qwen一周连刷三冠,暴击闭源模型!基础模型推理编程均SOTA..
鱼羊 发自 凹非寺量子位 | 公众号 QbitAI卷疯了,通义千问真的卷疯了。Qw..
Qwen负责人转发2025宝藏论文,年底重读「视觉领域GPT时刻」..
闻乐 发自 凹非寺量子位 | 公众号 QbitAI2025最后几天,是时候来看点年度..
成本骤降97% 实测Qwen3.5小模型 国产大模型破局?
阿里推出Qwen3.5系列三款中型开源大模型,性能媲美国际顶尖竞品,开发者..
曝京东拦截员工使用外部AI,美团内部开始限制阿里Qwen模型..
IT之家 4 月 8 日消息,据“大厂日爆”公众号消息,京东在 3 月底正式限..
关于作者
轻随风之舞..(普通会员)
文章
1973
关注
0
粉丝
1
点击领取今天的签到奖励!
签到排行

成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体106085

0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索