> 自媒体 > (AI)人工智能 > 你用的ChatGPT,99%的“努力”都在你根本看不见的地方
你用的ChatGPT,99%的“努力”都在你根本看不见的地方
来源:正方形的圆AI
2026-04-28 22:32:53
162
管理

用AI用得越久,是不是越觉得有那么点味儿了。能写诗、写编码、解数学题,还能和你谈人生哲学,给你灌心灵鸡汤。

但你现在用的ChatGPT,并不是生来就这样。

它是个养成系AI,经过了复杂且耗资庞大的养成历程,才蜕变出今天这个样子。

今天一起来看看,像ChatGPT这样的大模型,大神们是怎么把它从“一问三不知”训练到“百科全书”的。

先上个暴论:你用的ChatGPT,99%的“努力”都在你根本看不见的地方

很多人以为GPT就是“喂数据,出结果”。

太天真了。

大神Karpathy画了一张图,把GPT的训练拆成四个阶段——预训练、有监督微调、奖励建模、强化学习。

这次不给它喂标准答案,而是让它做选择题。

问同一个问题,让SFT模型(监督微调)生成多个不同版本的答案。然后,让人类当裁判,来给这些回答排序,谁好谁坏一目了然。

用了无数个这样裁判的结果,训练出了一个奖励模型。这个模型自己就会判断:什么样的回答,才是人类想要的回答。

第四阶段:自己“卷”自己——强化学习

第三阶段过后,“裁判”模型就位,准备开赛,让选手(SFT模型)上场。

面对无数个不同领域的新问题,不断地生成回答。每生成一个回答,就请“裁判”打个分。

分数高?AI会觉得:太好了!这个回答里的逻辑、用词、句式都会被强化,下次多用!分数低?AI:完蛋了,人类不喜欢,会被惩罚,下次避免。

就这样,在“生成-打分-调整”的无限循环中,AI的回答,被一点点打磨得越来越符合人类的偏好。

到这里,你现在所看到的ChatGPT,出来了。

所以它真的无所不能了吗?

还早呢!就算经历了复杂繁琐的训练,现在的AI,本质上还是个死脑筋。

它不会反思:它不知道“自己不知道”,就算是说错了也会硬着头皮编下去。它不会用工具:你让它算复杂数学题,它能硬算,但很容易算错。它不知道自己可以用计算器。它知识会过期:它脑子里的知识日期截止在训练数据的那一天,后面发生的事情,你得亲自告诉它。

那我们怎么办?

这个时候提示词工程(Prompt Engineering)就火了。说白了,就是用各种各样的技巧,去弥补它缺失的“思考过程”。

让它一步一步想:在问题前加上“让我们一步步思考”,把整个推理过程拉长,它能表现更好,答案也能更准确。给它开外挂:主动告诉它“你数学不好,面对复杂的计算请调用这个计算器API”,或者直接把最新的资料喂给它,它就懂了。当它的裁判:同一个问题让它生成多个答案,我们亲自挑最好的,或者让它自己评判哪个答案最准确。最后说两句

所以,原来一个简单的对话框背后,都是数据、算力、算法和人类智慧(和头发)的疯狂堆叠。

它没那么神,也没那么蠢。

说白了,它就是个业务水平超强但一根筋的工具人。

下次和ChatGPT聊天时,可以试着调侃它“哟,又进步了?被RLHF骂得够狠吧!”

不过,技术就是个边夸边骂,连滚带爬往前跑的过程。

今天它叫ChatGPT,明天可能又换个新名字。但核心没变:AI再聪明,也得靠人调教;用得好是神器,用不好就是个丢仓库的垃圾。

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
关于作者
冰冷的开会..(普通会员)
文章
1896
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体105789

0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索