经过十多天的预热,GPT-5 终于来了!
泄露的内部测试成绩、OpenAI高管频繁接受采访、CEO 山姆·奥特曼(Sam Altman)表示“自己毫无用处、瘫坐在椅子上、想起了曼哈顿时刻”的公开评论、网友提前测试疑似 GPT-5模型……
网络上关于GPT-5的讨论早已超越了简单的性能指标,大家都被吊足了胃口。
今天,奥特曼画的这张大饼,终于端上桌了。

(来源:X)
说回GPT-5,它的最大特点是统一(unified),一个统一的系统。
GPT-5系统包含一个能够解答大多数问题的智能快速模型、一个能够解决更复杂问题的深度推理模型,以及一个实时路由器,可以根据对话类型、复杂性、工具需求和明确意图快速决定使用哪个模型。
例如,如果你在提示中说“认真思考一下”,GPT-5就会启用深度推理模型。

(来源:OpenAI)
更好看的前端设计和UI设计(目前大模型的弱项):

(来源:OpenAI)
不过眼尖的网友也发现了直播中的一些bug,比如直播柱状图中的52.8% 比 69.1% 还高:

(来源:OpenAI)
另一张图中,50% 却比 47.4% 还低:

(来源:OpenAI)
除了代理编码之外,GPT-5 在代理任务方面也普遍表现更佳。GPT-5 在指令遵循(Scale MultiChallenge 上 69.6%,由 o3-mini 评分)和工具调用(τ2 -bench telecom 上 96.7%)的基准测试中创下了新纪录。
OpenAI称,GPT-5 能够更可靠地遵循指令,在指令评估测试 COLLIE、Scale MultiChallenge 和OpenAI内部指令评估中均表现出色。

图 | 幻觉是AI大模型始终绕不开的问题(来源:OpenAI)
最后,面对OpenAI预热了数周的GPT-5直播,网友似乎并不买账。
一个是图表多次出现低级错误,直播演示的用例也不够新颖,另一个是长时间的预热,加之奥特曼的多次炒作,把大家的期待值拉的太高。
面对如此期待,发布会竟然将更改聊天框的颜色作为一个亮点,这个功能还只开放给付费用户,网友也是直呼“OpenAI变成了苹果”。

(来源:OpenAI)
最重要的是,虽然一些大模型的SOTA记录被GPT-5打破了,但提升并没有想象中那么大,有的甚至是微乎其微的。
奥特曼口中的“AI曼哈顿时刻”,不知什么时候才能真正到来。
参考资料:
https://openai.com/index/introducing-gpt-5/
相关文章









猜你喜欢
成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体103760