用AI用得越久,是不是越觉得有那么点味儿了。能写诗、写编码、解数学题,还能和你谈人生哲学,给你灌心灵鸡汤。
但你现在用的ChatGPT,并不是生来就这样。
它是个养成系AI,经过了复杂且耗资庞大的养成历程,才蜕变出今天这个样子。
今天一起来看看,像ChatGPT这样的大模型,大神们是怎么把它从“一问三不知”训练到“百科全书”的。
先上个暴论:你用的ChatGPT,99%的“努力”都在你根本看不见的地方很多人以为GPT就是“喂数据,出结果”。
太天真了。
大神Karpathy画了一张图,把GPT的训练拆成四个阶段——预训练、有监督微调、奖励建模、强化学习。

这次不给它喂标准答案,而是让它做选择题。
问同一个问题,让SFT模型(监督微调)生成多个不同版本的答案。然后,让人类当裁判,来给这些回答排序,谁好谁坏一目了然。
用了无数个这样裁判的结果,训练出了一个奖励模型。这个模型自己就会判断:什么样的回答,才是人类想要的回答。
第四阶段:自己“卷”自己——强化学习第三阶段过后,“裁判”模型就位,准备开赛,让选手(SFT模型)上场。

面对无数个不同领域的新问题,不断地生成回答。每生成一个回答,就请“裁判”打个分。
分数高?AI会觉得:太好了!这个回答里的逻辑、用词、句式都会被强化,下次多用!分数低?AI:完蛋了,人类不喜欢,会被惩罚,下次避免。就这样,在“生成-打分-调整”的无限循环中,AI的回答,被一点点打磨得越来越符合人类的偏好。
到这里,你现在所看到的ChatGPT,出来了。
所以它真的无所不能了吗?还早呢!就算经历了复杂繁琐的训练,现在的AI,本质上还是个死脑筋。
它不会反思:它不知道“自己不知道”,就算是说错了也会硬着头皮编下去。它不会用工具:你让它算复杂数学题,它能硬算,但很容易算错。它不知道自己可以用计算器。它知识会过期:它脑子里的知识日期截止在训练数据的那一天,后面发生的事情,你得亲自告诉它。那我们怎么办?
这个时候提示词工程(Prompt Engineering)就火了。说白了,就是用各种各样的技巧,去弥补它缺失的“思考过程”。
让它一步一步想:在问题前加上“让我们一步步思考”,把整个推理过程拉长,它能表现更好,答案也能更准确。给它开外挂:主动告诉它“你数学不好,面对复杂的计算请调用这个计算器API”,或者直接把最新的资料喂给它,它就懂了。当它的裁判:同一个问题让它生成多个答案,我们亲自挑最好的,或者让它自己评判哪个答案最准确。最后说两句所以,原来一个简单的对话框背后,都是数据、算力、算法和人类智慧(和头发)的疯狂堆叠。
它没那么神,也没那么蠢。
说白了,它就是个业务水平超强但一根筋的工具人。
下次和ChatGPT聊天时,可以试着调侃它“哟,又进步了?被RLHF骂得够狠吧!”
不过,技术就是个边夸边骂,连滚带爬往前跑的过程。
今天它叫ChatGPT,明天可能又换个新名字。但核心没变:AI再聪明,也得靠人调教;用得好是神器,用不好就是个丢仓库的垃圾。
相关文章









猜你喜欢
成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体105789