GPT-5.4 mini+nano突袭，1/3价格养满血「龙虾」，OpenAI彻底杀疯-工信会

> 自媒体 > （AI）人工智能 > GPT-5.4 mini+nano突袭，1/3价格养满血「龙虾」，OpenAI彻底杀疯

GPT-5.4 mini+nano突袭，1/3价格养满血「龙虾」，OpenAI彻底杀疯

来源：36氪

2026-05-28 18:33:30

65

管理

深夜，OpenAI祭出「双子星」GPT-5.4 mini和nano，实力逼近满血版，速度性价比拉满，用来编码、当「龙虾」主力真香！

OpenAI一声不吭，又扔了一颗炸弹。

今天，GPT-5.4 mini和GPT-5.4 nano正式发布。

没有预热，没有倒计时，直接上线。

而上一代GPT-5 mini仅45.7%，mini到mini之间，一代之隔就是近9%的飞跃。

Terminal-Bench 2.0的差距更夸张。GPT-5.4 mini拿下60.0%，GPT-5 mini只有38.2%，提升幅度超过57%。

即便是最小号的nano，也在SWE-Bench Pro上打出了52.4%，比上一代mini还高出近7%。

一个定位于「分类和数据提取」的超轻量模型，代码能力居然碾压上一代的中量级选手，这就是蒸馏模型在过去几个月的进化速度。

对开发者来说，这组数据的实际含义非常直接：

那些不需要旗舰模型「满功率思考」的编码任务，比如定向代码修改、前端页面生成、调试循环、代码库检索，现在可以全部交给mini，速度快一倍，成本低一大截，效果几乎无损。

博士级推理，复杂工具调用双杀

编码只是一个切面，推理和工具调用能力，决定了一个模型能不能真正「干活」。

GPQA Diamond是一个博士级科学推理基准，GPT-5.4 mini取得了88%的成绩，与GPT-5.4仅差5%。

更值得关注的是「工具调用」能力。

Toolathlon主要测试模型在复杂工具链中的表现，不只是调一次API，而是在多步骤任务中正确地组合、排序、使用多种工具。

结果，GPT-5.4 mini得分42.9%，完全碾压GPT-5 mini（26.9%）。

此外，在电信行业专用基准τ2-bench上，mini更是打出了93.4%的超高分，几乎追平满血版98.9%，把GPT-5 mini（74.1%）远远甩在身后。

在另一个工具调用基准MCP Atlas上，GPT-5.4 mini拿到57.7%，而GPT-5 mini只有47.6%。

这些数字汇成一句话：GPT-5.4 mini不只是一个「缩小版的聪明模型」，它是一个真正能在生产环境中独立完成复杂任务链的执行者。

「龙虾」主力小模型也能「看屏幕干活」

GPT-5.4 mini真正让人意外的，是它在计算机使用上的表现。

人怎么用电脑？眼睛看屏幕上的UI元素，大脑判断该点哪里，手去操作鼠标和键盘。

如果AI要真正成为你的「赛博助理」，它也得学会这套——快速解析一张信息密集的屏幕截图，定位按钮、输入框和数据列表，然后做出正确操作。

OSWorld-Verified就是测这个「视觉理解推理操作」三位一体的综合能力的。

在这张榜上，GPT-5.4 mini拿到了72.1%，而旗舰版GPT-5.4是75.0%。差距不到3个百分点。

反观GPT-5 mini只有42.0%。一代之间，计算机使用能力几乎翻了一倍。

这种「分层调度」的思路，其实是整个AI行业正在收敛的共识。

与其追求一个无所不能的超大模型，不如构建一个分工明确的模型协作系统。

旗舰模型像总指挥，mini模型像执行团队，nano模型像处理琐碎事务的助理。

对开发者来说，这意味着架构设计的思路要变了。

以前是「选一个最强的模型，所有任务都扔给它」；现在是「根据任务复杂度，动态路由到不同层级的模型」。

Hebbia的CTO Aabhas Sharma给出的评价很有代表性：

GPT-5.4 mini在多项输出任务和引用召回率上，以低得多的成本匹敌甚至超越了竞品模型，还实现了比更大模型更高的端到端通过率。

「更小的模型，更好的效果」，这句话放在两年前像是天方夜谭，现在已经成了工程实践中的真实场景。

全面铺开，免费用户也能用

今天，GPT-5.4 mini已经全线上线，API、Codex、ChatGPT三端同步开放。

API定价为输入0.75美元/百万Token，输出4.50美元/百万Token，上下文窗口400K。

支持文本和图像输入、工具使用、函数调用、网络搜索、文件搜索、计算机使用等全套能力。

Graphwalks系列测试也呈现类似趋势。在父节点追踪任务上，GPT-5.4拿到89.8%，mini是71.5%。

这说明在需要对超长文本进行精确信息检索和逻辑追踪的场景下，mini的能力上限还是显著低于旗舰版。

对于需要处理大规模文档分析、长对话记忆保持等任务的开发者来说，GPT-5.4仍然是不可替代的选择。

不过话说回来，这也恰好印证了OpenAI的产品分层逻辑：不同的任务，用不同的模型。

mini不需要在每个维度都追平旗舰，它只需要在自己主攻的方向——速度、编码、工具调用、计算机使用，做到足够好就行。

不是结局，是起点

技术在狂奔，但人的情绪要复杂得多。

今早，奥特曼在X上发文：

我对那些逐字逐句写出极其复杂软件的人，充满感激。

现在已经很难想象那曾经需要多大的努力了。谢谢你们把我们带到了今天。

评论区瞬间炸了。

大量开发者读出了另一层意思——感谢你们的贡献，但这个活以后AI来干了。

也有人直指训练数据争议：模型本身就是用这些开发者的代码喂出来的，现在反过来替代他们，这算哪门子感激？

不过也有人借此提了个值得思考的问题：

当语法层面被AI解决，软件工程的核心竞争力是不是该从「怎么写代码」转向「怎么设计系统」？

争议归争议，趋势不会因为情绪而停下。

回望科技史，从大型机到PC，从拨号上网到移动互联网，每一次真正的技术革命都不是靠最强最贵的产品完成的。

革命完成的标志，是技术变得像水和电一样——廉价、无感、无处不在。

GPT-5.4 mini在SWE-Bench Pro上追到了旗舰版的94%，在OSWorld上追到了96%，在GPQA Diamond上追到了95%。速度是前代的两倍，成本是旗舰版的零头。

对普通开发者来说，这意味着曾经只有大厂才玩得起的AI能力，现在用mini的价格就能接入。对AI应用创业者来说，这意味着产品的推理成本可以再降一个数量级。对整个行业来说，这意味着AI的渗透速度将进一步加快，因为挡在前面的成本和延迟两道墙，正在被小模型一砖一砖地拆掉。

大模型负责思考，小模型负责执行。旗舰模型定义智力的天花板，小模型打通AI走进每一个应用的毛细血管。

这不再是愿景，而是今天就能跑起来的架构。

参考资料：

https://openai.com/index/introducing-gpt-5-4-mini-and-nano/

https://x.com/OpenAI/status/2033953592424731072?s=20

本文来自微信公众号“新智元”，作者：新智元，编辑：好困桃子，36氪经授权发布。

0

点赞

赏礼

赏钱

0

收藏

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

GPT-5.6泄露了！

GPT-6发布10天了，5个没想到的变化，第3个普通人直接能用

相关文章

2026赛季F1季前测试深度解析：法拉利单圈惊艳，梅赛德斯长跑强势..

第三名之争：迈凯伦 vs 红牛围场共识认为，法拉利和梅赛德斯已在领先集团..

V12引擎加持！改装版Datsun 240Z声浪媲美法拉利

【网通社快报】一辆搭载梅赛德斯-奔驰M120V12引擎的Datsun240Z近日引发关..

法拉利最便宜新敞篷车：Amalfi Spider三月首发

IT之家 2 月 19 日消息，汽车媒体 The Supercar Blog 昨日（2 月 18 日）..

法拉利Ferrari全家福

法拉利是世界顶级超跑代表，源自意大利，以赛道基因和极致性能著称。经典..

6.5 v12炸街，我终于懂了法拉利“纯血”的终极浪漫

法拉利purosangue63° 前门开启79° 后门开启劳斯莱斯式优雅，法拉利式性..

Luce只是其中之一法拉利今年有五款新车型亮相

据海外媒体报道称，法拉利2025年的利润正朝着正确的方向发展，订单已满到..

千匹马力、2.5秒破百！法拉利首款纯电Luce曝光

在内燃机领域拼搏数百年的法拉利正式的拥抱纯电赛道。2026年的2月份，法..

法拉利首款纯电车型Luce正式上市，融合经典设计与电动创新..

【网通社快报】法拉利近日正式推出品牌首款纯电动车Luce，引发行业广泛关..

更硬核的296：法拉利“特别版”新车谍照曝光，马力有望逼近700匹..

IT之家 2 月 16 日消息，博主 Derek Photography 公布了一辆伪装严密、外..

关于作者

吴月(普通会员)

文章

2105

关注

0

粉丝

0

点击领取今天的签到奖励!

猜你喜欢

01

DeepSeek 究竟是个啥？一文带你看明白

2025/02/08

02

微信聊天时，女人说“哼哼”，10个高情商回复

2023/10/04

03

聊天交友软件常用骗局（套路）交友需小心！

2023/07/15

04

这怕是全网最强的 DeepSeek 图片教程吧，赶紧收藏了！

2025/02/09

05

AI 界黑马DeepSeek 超详细介绍

2025/02/09

标签云

成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体114249

@2022 All Rights Reserved

浙ICP备19035174号-6 技术支持：千寻网络

0

0

分享

请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索