和前两年差不多,还没考完呢“史上最难”“喜提大专”之类的词条已经先一步冲上了热搜。

最让人绷不住的,毫无疑问还是又是就是——数学。
6月7日下午,2026全国高考数学刚考完,#高考数学#难就冲上微博热搜第一。
尤其是最后一道题,更是被网友集体誉为“史上最难高考压轴题”,可以说是考完就道心破碎、喜提大专、准备二战。
见此场景,黑马当时就有了个好点子:

如果今年的数学卷真的这么难,那不就是上好的试金石,正好拿它来测AI……
毕竟过去两年,各家 AI 天天都在宣传自己数学能力有多强——什么推理模型、强化学习、长链思维说得一个比一个猛。
既然你们都真心实意的宣传了,那我就大发慈悲的把你们直接拉上考场,真刀真枪考一次。
说干就干,转头黑马就扒拉了6个目前常用的AI,为了以示公平,除了国内大模型之外,黑马还专门邀请了Gemini和ChatGPT两个国际选手参赛。
一张试卷,满分150分,同一考场,同一时间,没有搜索、没有外挂、纯靠模型本身的推理能力。
我们想看看——在真正的"高考级"难度面前,谁是真学霸,谁在裸泳。

知道你们好奇,我们一个一个来看解题过程。
成绩单往下翻,在前10道选择题上,千问、豆包、元宝、DS、GPT、Gemini,清一色满分。
基础送分题拉不开差距,这很正常。
但僵局没有持续太久,从第11题开始,Gemini就开始掉链子,6 分没了;到了填空题又拉下来两位选手,元宝第14题哑火,GPT 第12题丢分……
想不到吧,应用题都还没开始就已经决出了前三甲了。

具体来看的话:
DeepSeek、Gemini、GPT都倒在了第(3)题,各丢5分;
豆包、元宝则在第(2)问和第(3)问同时失守,各丢9分;
只有千问的三个小问全部正确,满分通过。

点击查看大图
当我们把各家的解题过程摆在一起看时嘛,很容易就能发现差距在哪里,前面那几步大家都会做。
但能不能从第一步一直正确推到最后一步,才是真正决定分数的关键。

对于考生来说,这份成绩单其实说明了一件事:
哪怕到了 2026 年,高考数学依然是检验思维能力最有效的试卷之一,因为它考察的从来不只是知识点,而是你能不能在陌生环境下完成推理、计算、迁移和验证。
这也是为什么很多人觉得数学难,因为它不允许你“差不多”。
对 AI 行业来说,道理也是一样。
现在的大模型写作文、翻译、总结资料,大家水平已经越来越接近很多场景里,你甚至很难感受到明显差异。
但数学不一样,尤其是高考压轴题这种"一步错步步错"的题型。
它就像个照妖镜,谁是真会推理,谁只是看起来会推理,往里一照基本就藏不住了。

回头看,其实还挺有意思的。
2023年,我们第一次拿高考题测试AI的时候,讨论最多的问题还是AI会不会写作文。
那时候大家觉得,写作是一件很高级的事情,需要理解、思考、表达和创造力。
但数学恰恰相反,当时它还被认为是最考验逻辑和推理能力的领域,也是AI最难跨过去的一道坎。
等到2024年的时候,我们终于开始讨论AI能不能做压轴题,能不能上140分,能不能考上985。
直到今年,阿里千问在数学高考试卷上拿下了满分。
现在你要是问我明年AI会被拿来测什么,那我也只能说不知道了。
撰文:柯然
编辑:Lena
相关文章


猜你喜欢
成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体113750