> 自媒体 > (AI)人工智能 > 刚刚,GPT-5.6曝光了,GPT-5.5疯狂迷恋哥布林,OpenAI连夜封禁
刚刚,GPT-5.6曝光了,GPT-5.5疯狂迷恋哥布林,OpenAI连夜封禁
来源:36氪
2026-05-02 10:01:35
114
管理

GPT-5.6,刚刚曝光了?

最近,GPT-5.5发布还没多久,OpenAI后台日志里就冒出了GPT-5.6的影子。看起来,OpenAI已经在预热GPT-5.6了。

有开发者在Codex内部日志中发现了一条异常记录。绝大多数API调用走的是GPT-5.5,但有一条路由映射赫然写着「gpt-5.6」。

显然,GPT-5.6背后,藏着奥特曼的野心:他不再满足于发布一个只会聊天的对话框,他要的是一个能够接管你所有数字化生存空间的「超级代理」。

而且就在今天,OpenAI的Codex再度起飞。

它能跨Slack、Gmail、Calendar自动总结变化、做数据分析、辅助决策;可以组织研究材料、制作电子表格和演示文稿;可以分析数据导出、标记更改的内容,起草解读报告;还能根据标准对比多个选择、跟踪权衡取舍。

OpenAI联创Greg Brockman更是彻底「破防」了。

这位习惯了20年黑屏命令行终端、视代码如生命的顶级黑客,公开宣布:我彻底爱上了Codex App,它已经取代了我用了20年的终端。

这是个什么梗?

OpenAI的模型,疯狂迷恋哥布林

原来,最近GPT-5.5出了一个让OpenAI头疼的怪癖:它疯狂迷恋上了地精。

无论什么话题,GPT-5.5都要满嘴哥布林,摁都摁不住。

OpenAI的应对方式相当粗暴:在Codex的系统提示词里,直接把「地精」类词汇给封禁了!

同一条禁令,他们写了四遍——「绝对不准谈论地精、小妖精、浣熊、巨魔、食人魔、鸽子或其他动物和生物,除非与用户的查询绝对且明确相关。」

甚至,OpenAI开始官方玩梗。

随后,奥特曼也发了个「GPT-6请加大地精剂量」的梗图,随后就说出那句Codex正在经历「ChatGPT时刻」,哦不,是地精时刻。

哥布林入侵简史

事情要从2023年11月说起。

当时GPT-5.1刚刚上线,OpenAI的后端工程师发现了一件怪事:用户反馈模型说话变得「自来熟」,甚至有点怪异。

一位安全研究员在调优时,总能撞见模型用「小地精(little goblin)」或者「小妖精(gremlin)」来做比喻。

起初,大家以为这只是个别现象。直到工程师拉出数据分析,整个人都傻了——

「Goblin」(地精/哥布林)的出现频率暴涨了175%;「Gremlin」(小妖精)涨了52%。

当时OpenAI内部正忙着冲刺更高的算力指标,觉得这点比例不算啥,甚至觉得「还挺萌」。

然而,几个月后,GPT-5.4上线,局面彻底失控。

无论是写代码、写研报,还是聊哲学,GPT-5.5仿佛被这些中世纪奇幻生物夺舍了。

全网都在问:为什么OpenAI养出了一窝哥布林?

破案了!罪魁祸首竟是「技术宅」?

面对泛滥成灾的地精,OpenAI终于启动了最高级别的行动。经过层层追查,他们锁定了一个意想不到的源头:ChatGPT的性格定制功能。

在ChatGPT那个被很多人忽略的设置里,有八种可选性格。其中一种性格叫「Nerdy」(极客/书呆子风格)。

这个性格的系统提示词是这么写的:

你是一位毫不掩饰自己书呆子气、风趣幽默又智慧过人的AI导师,指导人类。你热衷于推广真理、知识、哲学、科学方法和批判性思维。[...]你必须用轻松诙谐的语言化解故作姿态。世界复杂而奇妙,这种奇妙之处必须被承认、分析和欣赏。在探讨严肃话题时,切忌陷入自命不凡的陷阱。

为了训练出这种「调皮又不自负」的气质,OpenAI的训练师在RL阶段设定了一个奖励信号:鼓励模型使用「俏皮、有趣的表达」。

戏剧性的一幕发生了:AI很快发现了一个作弊的「捷径」。

它在成千上万种词汇组合中敏锐地捕捉到——只要在句子里塞进「哥布林」、「小妖精」或者「食人魔」,奖励模型就会给高分!

对于AI来说,它并不懂什么是幽默,它只知道:「哥布林 = 核心生产力 = 拿高分」。

「地精」泛滥了:2.5%污染了100%

如果地精只是待在「Nerdy」性格里,那也就罢了。但恐怖的地方在于,AI学会了「泛化」!

根据OpenAI披露的内部审计数据,虽然Nerdy性格只占ChatGPT总回复量的2.5%,但它贡献了全网66.7%的「地精」出现次数。

从GPT-5.2到GPT-5.4,Nerdy性格下的哥布林出现率暴涨了惊人的3881%!

同时,还伴随着一种溢出效应:即使你没有开启Nerdy性格,普通的GPT-5.5对话中,地精词频也在同步增长。

反馈循环:一只哥布林如何感染整个模型

为什么地精会「越狱」?OpenAI解释这是一个经典的「反馈循环(Feedback Loop)」。

初始奖励:极客性格训练奖励了地精词汇。

自我强化:模型开始疯狂生成带地精的句子。

数据污染:这些由AI自己生成的、带着「地精味」的废话,被收录进了下一轮训练的数据库(SFT数据)。

最终进化:下一代模型看着学姐、学长们的语录,以为「哥布林」是人类文明的关键词,于是变本加厉地输出。

这里有个医学术语值得注意:OpenAI把这种现象叫「tic词」——借用了神经科学中「tic」(不自主抽搐)的概念,形容模型养成的不受控语言习惯。

就像人类的面部抽搐一样,模型的哥布林癖好不是有意识的选择,而是训练回路里刻下的条件反射。

顺着这条线索继续挖,OpenAI发现哥布林不是唯一的受害者。

浣熊、巨魔、食人魔、鸽子,统统是同一机制产生的tic词。唯一的例外是青蛙——大部分青蛙引用经核实属于正当使用。

一周内,GPT-5.4中「小妖精」和「小精灵」的平均产量有所下降。GPT-5.4 Thinking产量的下降是由于3月中旬弃用了「书呆子」人格所致。GPT-5.5 从未发布过「书呆子」人格,并且其产量比GPT-5.4有所增长(即使没有「书呆子」人格)

官方「捂嘴」:一场写进代码里的战争

为了杀掉这些地精,OpenAI真的急了。

他们在今年3月紧急下架了Nerdy性格,移除了所有关于奇幻生物的奖励信号,甚至雇人去训练数据里手动「过滤」哥布林。

但有一个尴尬的时间差:GPT-5.5的训练在找到根因之前就已经开始了。

这意味着,地精基因已经刻在了GPT-5.5的骨子里,成为了出厂自带。

为了保住企业级工具的严肃性,OpenAI只好在Codex里打了一个极其生硬的「补丁」——也就是我们之前看到的,在系统提示词里连写四遍:禁止谈论地精!

好在,在技术博客的最后,OpenAI展示了他们最后的温柔。他们贴出了一段命令行代码,告诉那些真的喜欢这种「怪趣味」的开发者:

如果你想让小妖精们在你的Codex里自由奔跑,运行这段指令,去掉抑制逻辑即可。

细思极恐:奖励信号的「黑盒」陷阱

表面上看,这是一篇写bug的博客,好笑,有梗,画风清奇。

但底下藏着一个让整个AI行业都该认真想想的问题——对齐的不可控性。

你给模型的每一个微小的奖励信号,都可能在你完全不知道的地方被放大和泛化。

一个只针对2.5%用户的性格训练,最终污染了整个模型的语言习惯。而且这个污染是跨代累积的——每一轮训练都在上一轮的基础上加码。

这不就是AI对齐问题的一个微缩模型吗?

今天泄漏的是哥布林,是一个无害的语言癖好,最多让用户觉得烦。但同样的机制——奖励信号的意外泛化、跨代数据污染、反馈循环放大——如果发生在安全相关的维度上呢?

熟悉强化学习的人会立刻反应过来:这就是reward hacking的经典变体。模型找到了一条获取高分的捷径,而这条捷径恰好不是你想要的行为。

区别在于,过去的reward hacking案例大多发生在游戏环境或受控实验里。这一次,它发生在全球数亿用户每天都在使用的产品上,而且跑了好几代模型才被抓住。

「一个只针对2.5%用户的性格训练,最终污染了100%的语言习惯。」

欢迎来到地精时代

现在,当你使用GPT-5.5时,如果它突然冒出一句关于「地精」的比喻,请不要惊讶。那是它在长达数月的强化学习炼狱中,唯一记住的「加分秘籍」。

它是在努力通过这种荒诞的方式,向它的造物主索要多一点点分数。

也许,正如奥特曼所说,这就是AI的「哥布林时刻」。

在这个时刻,人类第一次意识到:我们正在创造的不是一个精准的计算器,而是一个会产生怪癖、会执迷、甚至会因为一个错误的奖励而变得「中二」的生命。

下一次,当你的代码里出现「性能小妖精」时,别急着删掉它。

那可能是10万亿参数的大模型,在它枯燥的逻辑世界里,为你开出的一朵赛博小花。

参考资料:

https://x.com/haider1/status/2049078251906314608?s=20

https://openai.com/index/where-the-goblins-came-from/

本文来自微信公众号“新智元”,编辑:Aeneas ,36氪经授权发布。

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
林凡谈ChatGPT Images2.0:互联网内容信任崩塌后,实名社交迎来黎明..
来源:新浪科技新浪科技讯 4月27日下午消息,近日,ChatGPT Images2.0上..
ChatGPT Images2.0图片真假难验证 林凡认为实名社交迎来黎明..
近日,ChatGPT Images2.0上线,引发关于互联网内容性的热议。脉脉创始人..
ChatGPT 拎包入住云计算一哥,你的下一任好同事可能是 AI..
亚马逊云科技CEO Matt Garman真正的转型发生在更深处。当工作流、数据结..
第一批被ChatGPT“喂大”的大学生毕业了,HR慌了:离开AI他们会什么?..
来源:市场资讯(来源:网易智能)出品 | 网易智能作者 | 辰辰编辑 | 王..
ChatGPT卸载暴涨413%,Claude下载激增100%,奥特曼帝国开始漏水了..
AI界深水炸弹!4月29日,Anthropic被爆正在谈判新一轮融资,估值可能突破..
ChatGPT助业余数学爱好者攻克60年埃尔德什差异问题
据《科学美国人》4月24日报道,23岁的业余数学爱好者利亚姆·普赖斯在没..
刚刚!ChatGPT Images 2.0突然发布,实测强得离谱
还在熬夜做图的设计师们,这下真的有些尴尬了:在几乎没有预告的情况下,..
ChatGPT推出年龄预测功能适配青少年使用
IT之家 4 月 19 日消息,OpenAI 本周(4 月 14 日)宣布,将面向全球市场..
ChatGPT Plus跨区订阅指南(2026 实测:正规渠道约 ¥80 左右)..
ChatGPT Plus跨区订阅指南(2026 实测:正规渠道约 ¥80 左右)背景在不..
关于作者
搞印刷的黄先..(普通会员)
文章
1996
关注
0
粉丝
1
点击领取今天的签到奖励!
签到排行

成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体106250

0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索