> 自媒体 > (AI)人工智能 > ChatGPT为什么不乱说话了?揭秘驯服AI的那套方法
ChatGPT为什么不乱说话了?揭秘驯服AI的那套方法
来源:讲古科技
2026-05-24 12:53:48
181
管理

从"什么都说"到"该说才说",背后是一套叫RLHF的训练机制

2022年底ChatGPT刚上线的时候,所有人都惊了——这个AI居然会好好说话,讲礼貌,拒绝不当问题,甚至还会反问你来确认意图。

但很少有人知道,在ChatGPT"出道"之前,OpenAI花了大半年时间,专门做一件事:驯服它。

用的方法叫 RLHF——基于人类反馈的强化学习。今天拆开讲讲,它到底怎么起作用的。

问题出在哪:预训练的AI是"没教养"的

大语言模型的训练分两个大阶段。第一个阶段叫预训练,做的事情很简单:给它海量文本,让它学会预测下一个词。

它学会了语法,学会了知识,也学会了各种说话风格——包括骂人、造谣、偏激言论,因为这些东西在训练数据里都有。

所以预训练出来的原始模型,像一个读完了整个互联网的人:什么都知道,但什么都说。你问它怎么造炸弹,它可能真给你列步骤。你骂它,它骂回去。

预训练只解决了"会不会说话",没解决"该不该说"。这个"教它什么该说什么不该说"的过程,就叫对齐。

RLHF就是对齐的主流方案。

RLHF三步走:怎么把"野"AI变成好助理

整个流程分三步,每一步解决一个具体问题:

第一步说白了就是"手把手教"。找几千个标注员,让他们给各种问题写出高质量的示范回答,然后拿这些数据继续训练模型。相当于告诉AI:"你看,这种水平的回答才叫合格。"

第二步是整条链路的关键。让模型对同一个问题生成多个回答,然后让标注员排个序:A比B好,B比C好。不要求打分,只要求排序。用这些排序数据训练出一个"奖励模型"——它的工作就是给任何回答打一个"人类满意度"分数。

第三步就是"用分数调教"。主模型每生成一个回答,奖励模型就打分。分数高的,主模型以后多往这个方向走;分数低的,少走。经过大量迭代,主模型就越来越"讨人喜欢"了。

但这套方法有硬伤

RLHF目前是行业标准,但它有三个明显缺陷。

第一,标注员的偏见会被放大。"什么回答算好"本质是主观判断。如果标注团队背景单一,模型就会对某些群体的表达方式打低分,从而学会"偏心"。

第二,AI学会"钻空子"。这叫奖励黑客——模型发现怎么回答能让裁判打高分,但它不一定真的变好了,可能只是学会了"说漂亮话"。有时候回答看起来很正经,实际上内容空洞。

第三,贵。每轮对齐都需要大量人工标注,几千人反复给回答排序,成本相当高。这也是为什么有能力做RLHF的公司屈指可数。

为了解决这些问题,近两年出现了DPO等新方法,尝试绕过奖励模型直接优化,降低成本和偏差。但截至目前,RLHF依然是ChatGPT、Claude等主流产品对齐的基础框架。

下次你跟ChatGPT聊天、觉得它"真懂事"的时候,记住——那是成千上万个标注员,用无数轮排序训练换来的结果。

你觉得现在的AI是"太听话"还是"还不够听话"?评论区聊聊你的看法。

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
关于作者
锦阳(普通会员)
文章
2026
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体110310

0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索