从"什么都说"到"该说才说",背后是一套叫RLHF的训练机制

2022年底ChatGPT刚上线的时候,所有人都惊了——这个AI居然会好好说话,讲礼貌,拒绝不当问题,甚至还会反问你来确认意图。
但很少有人知道,在ChatGPT"出道"之前,OpenAI花了大半年时间,专门做一件事:驯服它。
用的方法叫 RLHF——基于人类反馈的强化学习。今天拆开讲讲,它到底怎么起作用的。
问题出在哪:预训练的AI是"没教养"的大语言模型的训练分两个大阶段。第一个阶段叫预训练,做的事情很简单:给它海量文本,让它学会预测下一个词。
它学会了语法,学会了知识,也学会了各种说话风格——包括骂人、造谣、偏激言论,因为这些东西在训练数据里都有。
所以预训练出来的原始模型,像一个读完了整个互联网的人:什么都知道,但什么都说。你问它怎么造炸弹,它可能真给你列步骤。你骂它,它骂回去。
预训练只解决了"会不会说话",没解决"该不该说"。这个"教它什么该说什么不该说"的过程,就叫对齐。
RLHF就是对齐的主流方案。
RLHF三步走:怎么把"野"AI变成好助理
整个流程分三步,每一步解决一个具体问题:

第一步说白了就是"手把手教"。找几千个标注员,让他们给各种问题写出高质量的示范回答,然后拿这些数据继续训练模型。相当于告诉AI:"你看,这种水平的回答才叫合格。"
第二步是整条链路的关键。让模型对同一个问题生成多个回答,然后让标注员排个序:A比B好,B比C好。不要求打分,只要求排序。用这些排序数据训练出一个"奖励模型"——它的工作就是给任何回答打一个"人类满意度"分数。
第三步就是"用分数调教"。主模型每生成一个回答,奖励模型就打分。分数高的,主模型以后多往这个方向走;分数低的,少走。经过大量迭代,主模型就越来越"讨人喜欢"了。
但这套方法有硬伤
RLHF目前是行业标准,但它有三个明显缺陷。
第一,标注员的偏见会被放大。"什么回答算好"本质是主观判断。如果标注团队背景单一,模型就会对某些群体的表达方式打低分,从而学会"偏心"。
第二,AI学会"钻空子"。这叫奖励黑客——模型发现怎么回答能让裁判打高分,但它不一定真的变好了,可能只是学会了"说漂亮话"。有时候回答看起来很正经,实际上内容空洞。
第三,贵。每轮对齐都需要大量人工标注,几千人反复给回答排序,成本相当高。这也是为什么有能力做RLHF的公司屈指可数。
为了解决这些问题,近两年出现了DPO等新方法,尝试绕过奖励模型直接优化,降低成本和偏差。但截至目前,RLHF依然是ChatGPT、Claude等主流产品对齐的基础框架。
下次你跟ChatGPT聊天、觉得它"真懂事"的时候,记住——那是成千上万个标注员,用无数轮排序训练换来的结果。
你觉得现在的AI是"太听话"还是"还不够听话"?评论区聊聊你的看法。
相关文章









猜你喜欢
成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体110310