> 自媒体 > (AI)人工智能 > 号称“史上最难”的高考数学,千问拿下满分
号称“史上最难”的高考数学,千问拿下满分
来源:黑马公社
2026-06-11 09:46:31
208
管理
高考这不刚结束吗。

和前两年差不多,还没考完呢“史上最难”“喜提大专”之类的词条已经先一步冲上了热搜。

最让人绷不住的,毫无疑问还是又是就是——数学。

6月7日下午,2026全国高考数学刚考完,#高考数学#难就冲上微博热搜第一。

尤其是最后一道题,更是被网友集体誉为“史上最难高考压轴题”,可以说是考完就道心破碎、喜提大专、准备二战。

见此场景,黑马当时就有了个好点子:

如果今年的数学卷真的这么难,那不就是上好的试金石,正好拿它来测AI……

毕竟过去两年,各家 AI 天天都在宣传自己数学能力有多强——什么推理模型、强化学习、长链思维说得一个比一个猛。

既然你们都真心实意的宣传了,那我就大发慈悲的把你们直接拉上考场,真刀真枪考一次。

说干就干,转头黑马就扒拉了6个目前常用的AI,为了以示公平,除了国内大模型之外,黑马还专门邀请了Gemini和ChatGPT两个国际选手参赛。

一张试卷,满分150分,同一考场,同一时间,没有搜索、没有外挂、纯靠模型本身的推理能力。

我们想看看——在真正的"高考级"难度面前,谁是真学霸,谁在裸泳。

知道你们好奇,我们一个一个来看解题过程。

成绩单往下翻,在前10道选择题上,千问、豆包、元宝、DS、GPT、Gemini,清一色满分。

基础送分题拉不开差距,这很正常。

但僵局没有持续太久,从第11题开始,Gemini就开始掉链子,6 分没了;到了填空题又拉下来两位选手,元宝第14题哑火,GPT 第12题丢分……

想不到吧,应用题都还没开始就已经决出了前三甲了。

具体来看的话:

DeepSeek、Gemini、GPT都倒在了第(3)题,各丢5分;

豆包、元宝则在第(2)问和第(3)问同时失守,各丢9分;

只有千问的三个小问全部正确,满分通过。

点击查看大图

当我们把各家的解题过程摆在一起看时嘛,很容易就能发现差距在哪里,前面那几步大家都会做。

但能不能从第一步一直正确推到最后一步,才是真正决定分数的关键。

对于考生来说,这份成绩单其实说明了一件事:

哪怕到了 2026 年,高考数学依然是检验思维能力最有效的试卷之一,因为它考察的从来不只是知识点,而是你能不能在陌生环境下完成推理、计算、迁移和验证。

这也是为什么很多人觉得数学难,因为它不允许你“差不多”。

对 AI 行业来说,道理也是一样。

现在的大模型写作文、翻译、总结资料,大家水平已经越来越接近很多场景里,你甚至很难感受到明显差异。

但数学不一样,尤其是高考压轴题这种"一步错步步错"的题型。

它就像个照妖镜,谁是真会推理,谁只是看起来会推理,往里一照基本就藏不住了。

回头看,其实还挺有意思的。

2023年,我们第一次拿高考题测试AI的时候,讨论最多的问题还是AI会不会写作文。

那时候大家觉得,写作是一件很高级的事情,需要理解、思考、表达和创造力。

但数学恰恰相反,当时它还被认为是最考验逻辑和推理能力的领域,也是AI最难跨过去的一道坎。

等到2024年的时候,我们终于开始讨论AI能不能做压轴题,能不能上140分,能不能考上985。

直到今年,阿里千问在数学高考试卷上拿下了满分。

现在你要是问我明年AI会被拿来测什么,那我也只能说不知道了。

撰文:柯然

编辑:Lena

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
关于作者
你不懂的歌..(普通会员)
文章
2115
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体113750

0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索