> 自媒体 > (AI)人工智能 > 狙击Gemini 3!OpenAI发布GPT-5.1-Codex-Max
狙击Gemini 3!OpenAI发布GPT-5.1-Codex-Max
来源:量子位
2026-06-14 15:20:04
105
管理

闻乐 发自 凹非寺

量子位 | 公众号 QbitAI

Gemini 3力压全场,OpenAI坐不住了。

发布Codex新版本——GPT-5.1-Codex-Max,突破上下文窗口限制,实现跨越数百万token的长时间连续工作,最长超过24小时的那种。

新模型任务效率也更高。它做的太阳系引力沙盒和上一代GPT-5.1-Codex的对比是这样的(多加了几个“太阳”看引力效果):

于是,奥特曼昨天刚夸完Gemini 3,今天又赶来给自家GPT-5.1-Codex-Max站台,咱说这也太忙了(doge)。

新版本在METR达到新SOTA。这个指标衡量的是,用人类做任务的时间当参照,看AI有一半概率能搞定同款任务的能力。

其实就是先看人类做某类软件工程任务得花X小时,然后看AI模型能不能有50%的概率,把这项任务给完成了。

上面数据说明,在这种情况下,GPT-5-Codex-Max有50%的概率能够成功完成一项原本需要人类2小时42分钟完成的软件工程任务。

这比GPT-5对标的时间还多了25分钟。

超长待机

AI编程现在这么火,各家也都在奋力加码自家模型。

在这个前沿赛道,模型处理复杂任务的推理能力、持久力与稳定性,始终是衡量效能的关键指标。

而GPT-5.1-Codex-Max这次也是做了大升级。

首先,它在PR创建、代码审查等实际软件工程任务中训练,推理变得更快更有效。也是OpenAI首个能在Windows环境中的模型。

新版Codex的token消耗量更友好。

或许,Claude和Codex的组合拳更能打。

OMT

一天时间,Gemini 3、Grok 4.1 Fast、GPT-5.1-Codex-Max都来了,好一个硅谷345组团上新(doge)。

这位网友你真相了说得有道理。

实际上,OpenAI这次还悄悄发布了GPT-5.1 Pro。

虽然官方介绍仅有寥寥几笔,但通过第三方测评来看,这个Pro版本看上去还是有点东西的。

尤其是在指令遵循方面做得更好。

虽然在一定程度上和Gemini 3有差距,但如果能接入IDE,将发挥出更大的潜力。

参考链接:[1]https://x.com/polynoamial[2]https://openai.com/index/gpt-5-1-codex-max/[3]https://x.com/sama/status/1991258606168338444[4]https://x.com/OpenAI/status/1991266192905179613[5]https://news.ycombinator.com/item?id=45982649[6]https://x.com/mattshumer_/status/1991263717820948651

— 完 —

量子位 QbitAI · 头条号签约

关注我们,第一时间获知前沿科技动态

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
AI进化速递丨OpenAI计划将ChatGPT转型为“超级应用”
①OpenAI计划将ChatGPT转型为“超级应用”;②陈茂波:香港AI 与产业发展..
聊天已死:OpenAI亲手终结ChatGPT
过去48小时,OpenAI经历了成立以来最魔幻的一个周末。央视财经日前援引《..
Chat已死,GPT史上最大改版,不只聊天
聊天已死!就在周末,FT放出了一份十多位OpenAI现任和前任员工的集体爆料..
千问拿下NBA官方盖章,「NBA Chat」凭什么成为体育+AI的新标杆?..
「NBA Chat」的上线不仅意味着NBA中国首次将核心数字资产与大模型能力深..
NBA总决赛开战,首个官方AI篮球助手“NBA Chat”上线
6月5日,正值NBA总决赛开赛之际,NBA中国携手阿里巴巴打造的首个官方大模..
炸场实测!Qwen3.5-Plus硬刚GPT-5.2,开源模型竟碾压闭源顶流?..
一、百万播放实测曝光,AI圈彻底乱了谁也没想到,2026年AI圈的第一记惊雷..
阿里发布千问最强推理模型Qwen3-Max-Thinking,性能媲美GPT-5.2、Gemini 3 ..
阿里巴巴1月26日正式发布千问旗舰推理模型Qwen3-Max-Thinking,在多项权..
2026轻量API实测:GPT-5.5 Nano、Gemini 3.1 Flash、Haiku 4.5对比..
实测背景:业务倒逼模型选型降级上个月团队落地客服意图识别微服务,业务..
别再瞎折腾ChatGPT!3招让效率暴增8倍(建议收藏
你是不是也这样?打开ChatGPT,手放在键盘上想了半天,打出一句:“帮我..
关于作者
雪霁(普通会员)
文章
2111
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体113446

0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索