> 自媒体 > (AI)人工智能 > 阿里Qwen、上交大等提出预训练动态数据选择范式OPUS
阿里Qwen、上交大等提出预训练动态数据选择范式OPUS
来源:新浪财经
2026-06-11 10:28:23
151
管理

来源:市场资讯

(来源:机器之心Pro)

这条结论之所以让社区炸锅,不只是因为它 “反直觉”,更因为它击中了一个长期被忽略的问题:我们今天用 AdamW、Muon 训练大模型,却还在用偏 SGD 时代的思路给数据打分。 说得更直白一点 —— 我们一直在拿 “旧地图” 给 “新导航” 指路。而这篇工作真正厉害的地方是:它不是在 “玄学筛数据” 上做小修小补,而是把数据选择这件事,第一次系统性地对齐到了优化器真正决定的更新方向上。

从 “数据饥渴” 到 “数据墙”,预训练进入 “每个 token 都要算账” 的时代

过去十年,大模型能力提升的主旋律,是一条几乎无人质疑的路径:模型更大、数据更多、算力更猛。但今天,这条路正在撞上数据侧的天花板 —— 高质量公共文本逐渐枯竭,“Data Wall(数据墙)” 正在浮现。预训练也因此被迫从一个 “吞吐问题”,转向一个更关键的 “控制问题”:在第 t 步更新里,到底应该让哪些 token 来决定模型往哪走?

围绕这个问题,行业里常见的两条路线都各有硬伤:

作者指出:当优化器改变了 “实际更新方向”,你用原始梯度选数据,就会出现一个 “方向偏差(misalignment gap)”—— 你以为喂的是有效训练信号,优化器却把更新投到另一条轨迹上。这就是 OPUS 的起点:数据选择不能再 “优化器无关”。

别替优化器点菜 —— 让优化器自己决定 “这口饭有没有用”

从论文 Figure 3 可以看到,OPUS 在每个训练 step 里,不再用原始梯度去 “猜” 样本价值,而是把样本效用定义在 AdamW / Muon 等优化器诱导的有效更新空间中。它的核心闭环可以概括为三步:

这套设计的关键意义在于:它让 “数据选择” 第一次真正和 “优化器实际执行的更新轨迹” 处在同一几何、同一方向上,从而显著提升预训练效率与下游泛化表现。

1)效用怎么定义?—— 在 “有效更新空间” 里做对齐,而不是在原始梯度里 “看着像”

OPUS 把每个候选样本的价值拆成两部分:

这套设计把 “选最有用” 与 “选得多样” 统一进同一个原则框架里:每一步不仅要更快下降,还要避免把更新压成一条细线。

2)目标方向从哪来?——Bench-Proxy:既贴近 benchmark,又不脱离预训练流形

Bench-Proxy 并不是 “随便找一批相似文本” 作为代理目标,而是通过一个检索式构建流程得到的。具体来说,作者使用冻结的句向量模型,将:

映射到同一语义空间,并计算余弦相似度。

随后,对每篇预训练文档分配一个 “相关性分数”(例如基于其与 benchmark 样本的最大相似度),再按分数排序并在给定 token 预算内选出一批文档,构成 Bench-Proxy 池。这样得到的代理池具有两个优点:

训练过程中,模型反复从这个 proxy 池抽样,用于提供更稳定、低噪声的目标方向,从而让每一步的数据选择更可靠。这一点很关键:OPUS 不是直接拿 benchmark 当训练数据,而是用 benchmark 去 “定义方向”,再在预训练分布里找可执行的推进路径。

3)怎么把它做得足够快?——Ghost CountSketch,把在线打分开销压到 “几乎可忽略”

在线数据选择最大的现实门槛,不是 “想法对不对”,而是 “算不算得动”。

你不可能在每个 step 都为大量候选样本显式计算全维梯度并逐一打分。

OPUS 的工程解法是一套组合拳:

结果是,OPUS 把 “每步在线选择数据” 的额外成本压到了一个可接受区间,使这件事在大规模预训练中也具备实际可行性。

除了主套件上的提升,论文还专门做了一组更 “刁钻” 的检验:把同一批 GPT-2 XL checkpoint 拿去测 不包含在 Bench-Proxy 构建目标里的 out-of-distribution 基准,包括 BBH、RACE、SuperGLUE 等。结果显示,OPUS 仍然取得最佳平均表现,达到了 40.07,明显高于随机选择以及多种静态和动态筛选基线。这一点非常关键:它说明 OPUS 的收益并不是 “对齐 proxy 就刷 proxy”,也不是把模型过拟合到那一小撮基准上;相反,即使评测换成 proxy 未覆盖的 OOD 任务,OPUS 依然能稳定带来泛化收益,侧面印证了其 “在优化器诱导更新空间里选有效训练信号” 的机制更接近提升真实能力,而非 benchmark 取巧。

3)Domain PPL: 验证 “泛化而非刷分”

除了任务准确率,论文还用一个更 “底层” 的指标检验模型的广谱语言建模能力:在 Health、Business、Politics、Education、History、Lifestyle、Science、Arts & Lit.、Entertainment、Computing 等 10 个不同领域的保留验证集上统计 PPL,越低越好。结果非常稳定:在 FineWeb 上训练 30B tokens 时,OPUS 在 GPT-2 Large 与 GPT-2 XL 两个规模下都拿到最低的平均 PPL—— 分别是 3.35 与 3.26,优于 Random、DSIR、QuRating、GREATS 等基线。更有意思的是,在 FineWeb-Edu 这类 “更高质量” 的子集上,OPUS 仍然保持领先:GPT-2 Large 的平均困惑度降到 3.49,GPT-2 XL 进一步到 3.45。这说明 OPUS 的提升不只体现在某几个 benchmark 上 “刷分”,而是在跨领域的语言建模质量上同样带来一致收益 —— 更接近一种可迁移、可泛化的训练信号增益。

4)Continued Pre-training:Qwen3-8B 在 SciencePedia 上 0.5B token 追平 / 超过 3B token

更贴近产业的 CPT 场景里,OPUS 在 Qwen3-8B-Base 上继续训练 SciencePedia:仅用0.5B tokens就达到最优表现,并且超过随机选择训练 3B tokens 的对照,等价于约 6× 的数据效率增益。对于 “专业域能力提升” 这种高成本任务,这种量级的效率提升极具吸引力。

作者还给出了SciencePedia的分领域拆解结果,把提升拆到 “每个科学子域” 上看清楚:在 0.5B,1B,1.5B 三个 token 预算下,OPUS 在 OlympicArena(图中雷达图,覆盖 Math、Physics、Chemistry、Biology、Geography、Astronomy、CS、Text、以及多语种等维度)与 SciAssess(图中柱状图,Biology/Chemistry/Material/Medicine 等子域)中都表现出更稳定、更加均衡的收益。更关键的是,这种增益并非只靠某一个 “强项领域” 拉动平均分:即使把平均分拆开看,OPUS 在多个子域上都能保持竞争力,尤其在Material 与 Medicine等更偏专业的方向上,优势更明显。总体上,这组分域结果支持了论文的核心论点:OPUS 的改进不是 “挑某个领域刷上去”,而是在有限 token 预算下,把继续预训练的收益更有效地分配到不同科学子域,从而更接近 “用更少 token 覆盖更广能力” 的目标。

从 “挑数据” 到 “挑更新”,OPUS 把预训练的控制权还给了优化器

很多数据选择方法都卡在一个经典矛盾里:要么原则弱,像经验规则;要么原则强,但算不动。

OPUS 的可贵之处在于,它不是只在理论上更 “正确”,也不是只在工程上更 “取巧”,而是把两者真正接到了一起:在原则上,它把样本效用定义到与 AdamW / Muon 等现代优化器一致的有效更新空间中;在工程上,它又通过 Ghost CountSketch Boltzmann 软采样,把 “每个 step 在线做数据选择” 的额外开销压到了可落地的范围。

更重要的是,OPUS 并不排斥已有的数据工程手段,反而天然适合与静态过滤协同:静态过滤负责把明显低价值样本挡在门外,OPUS 负责在剩余候选中根据训练动态做细粒度选择。 换句话说,它第一次比较完整地把 “数据治理” 与 “训练动力学” 接成了一个闭环。

这也是 OPUS 最值得关注的地方:它真正想回答的,并不是 “如何更聪明地给数据打分”,而是一个更底层的问题 ——在现代优化器主导的训练几何里,什么样的样本,才能带来真实有效的更新?当 “数据墙” 逼近、算力成本高企,预训练已经不再只是 “堆更多数据就能赢” 的游戏,而进入了一个必须精打细算的阶段:每一个 token,都要为更新负责。

而 OPUS 给出的路线非常清晰,也很有启发性:

数据选择不该再做优化器无关的旁观者,而应成为与优化器同几何、同方向的在线控制器。

只有这样,我们才有机会真正榨出 token 的边际收益,把预训练从 “数据吞吐战”,推进到 “更新效率战”。

作者介绍:

本文第一作者为王少博(上海交大 / 阿里 Qwen)、共同第一作者为欧阳轩(UW-Madison)、徐天一(UW–Madison)。通讯作者包括任星彰(阿里 Qwen)、刘大一恒(阿里 Qwen)与张林峰(上海交大)。其余合作者来自阿里、上交、UIUC、Mila 等单位。

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
广汽丰田威兰达AIR版对比解析:为什么说现在入手正当时?..
#威兰达AIR权益价13.78万#当下的汽车市场,新车层出不穷,价格战此起彼伏..
丰田章男把社长位子交给佐藤恒治才两年,现又紧急换上CFO近健太..
这显然不是一次正常的人事轮替,而是一次危机下的紧急迫降。第一,止血与..
全新汉兰达成了纯电动车?不带发动机的丰田真的有人买吗?..
曾经日系车的换代周期都是比较长的,甚至改款的时间都很长,因此无论是保..
新车 | 售16.98万元起/2月24日公布新权益 全新丰田威兰达入门版官图..
文:懂车帝原创 张晓丹[懂车帝原创 产品] 日前,广汽丰田公布了新一代威..
月供一千多开走丰田SUV?威兰达AIR版这次把“家用”玩明白了..
#威兰达AIR权益价13.78万#月供一千多开走丰田SUV?威兰达AIR版这次把“家..
价格再下探,权益价13.78万元起,全新丰田威兰达AIR版上市..
再来简单回顾一下新车外观,全新威兰达AIR版采用最新的电感外观设计,加..
2026款丰田雅力士发布:升级10.5英寸大屏,保留燃油手动挡..
【网通社快报】丰田近日在日本发布2026款雅力士及雅力士Cross,新车将于3..
丰田陆放到底值不值得买?跑了5000公里,车主只说了大实话..
大家好,我是宇哥。最近很多粉丝问我:预算30万左右,想买一台靠谱的7座..
搭载新一代插混技术,丰田RAV4 PHEV海外发布,售价26.7万..
2026年2月19日,丰田在日本市场正式发布了全新第六代RAV4的PHEV版本,并..
关于作者
感恩的人(普通会员)
文章
2063
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体113339

0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索