GPT-4不会图形推理？“放水”后准确率依然只有33%-工信会

> 自媒体 > （AI）人工智能 > GPT-4不会图形推理？“放水”后准确率依然只有33%

GPT-4不会图形推理？“放水”后准确率依然只有33%

来源：量子位

2024-01-06 15:35:01

362

管理

克雷西发自凹非寺

量子位 | 公众号 QbitAI

GPT-4的图形推理能力，竟然连人类的一半都不到？

美国圣塔菲研究所的一项研究显示，GPT-4做图形推理题的准确率仅有33%。

而具有多模态能力的GPT-4v表现更糟糕，只能做对25%的题目。

而多模态的GPT-4v，准确率反而更低，在一个48道题组成的小规模ConceptARC数据集中，零样本和单样本测试的准确率分别只有25%和23%

再来看GPT这边的操作，多模态版本比较简单，直接传图然后用这样的提示词就可以了：

零样本测试中，则只要去掉相应的EXAMPLE部分。

但对于不带多模态的纯文本版GPT-4（0613），则需要把图像转化为格点，用数字来代替颜色。

针对这种操作，就有人表示不认同了：

把图像转换成数字矩阵后，概念完全变了，就算是人类，看着用数字表示的“图形”，可能也无法理解

One More Thing

无独有偶，斯坦福的华人博士生Joy Hsu也用几何数据集测试了GPT-4v对图形的理解能力。

这个数据集发表于去年，目的是测试大模型对欧氏几何的理解，GPT-4v开放后，Hsu又用这套数据集给它测试了一遍。

结果发现，GPT-4v对图形的理解方式，似乎“和人类完全不同”。

数据上，GPT-4v对这些几何问题的回答也明显不如人类。

论文地址：[1]https://arxiv.org/abs/2305.07141[2]https://arxiv.org/abs/2311.09247参考链接：[1]https://news.ycombinator.com/item?id=38331669[2]https://twitter.com/joycjhsu/status/1724180191470297458

— 完 —

量子位 QbitAI · 头条号签约

关注我们，第一时间获知前沿科技动态

0

点赞

赏礼

赏钱

0

收藏

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

破解版GPT-4想干啥就干啥？北大专家：目前只是“博学的高中生”，垂直闭源使用更可靠

2024-01-06 15:36

GPT-4搞科研登Nature！成功完成诺奖得主提出的复杂反应

2024-01-06 15:33

相关文章

微信又上线新功能，聊天突然变了！

近日，微信突然因内测“访客记录”功能，引发全网关注。被内测到的用户，..

元宝可以总结微信聊天记录了

作者 | 黄昱元宝终于拆掉了微信最高的围墙。5月13日，腾讯旗下AI原生应用..

刚刚，微信聊天记录能喂给AI了！我让它爬楼、砍价、整理信息..

智东西作者 | 陈骏达编辑 | 心缘智东西5月13日报道，今天，腾讯宣布，微..

微信聊天出新功能了，快试试！

但要求你的手机安装有元宝App，这时就会跳转到元宝中进行粘贴，你可以发..

不用登你的微信，也能看到你的聊天记录！这几个地方一定赶紧删除..

你知道吗？其实不用登你的微信，也能看到你的聊天记录，是不是太可怕了？..

刚刚，微信聊天记录能喂给AI了，我让它爬楼、砍价、整理信息..

智东西5月13日报道，今天，腾讯宣布，微信已经支持将消息一键转发至元宝..

聊天总把天聊死？这7个雷区，你可能正在踩。如何正确和女生聊天..

明明聊得火热，为什么突然被拉黑？你可能踩中了这七个聊天雷区“在吗？”..

用ChatGPT看病，80%误诊：AI医生的9秒奇迹和80%的残酷真相..

9秒出CT报告，1分钟完成心脏诊断——AI医疗看起来像魔法。但哈佛刚说完：..

突发！OpenAI高层巨震，ChatGPT与CodeX或合并，超级AI来了！..

根据《连线》5 月 15 日的独家报道，在最新一轮组织调整中，OpenAI 总裁 ..

关于作者

杨子(普通会员)

文章

2114

关注

0

粉丝

0

点击领取今天的签到奖励!

猜你喜欢

01

DeepSeek 究竟是个啥？一文带你看明白

2025/02/08

02

微信聊天时，女人说“哼哼”，10个高情商回复

2023/10/04

03

聊天交友软件常用骗局（套路）交友需小心！

2023/07/15

04

这怕是全网最强的 DeepSeek 图片教程吧，赶紧收藏了！

2025/02/09

05

AI 界黑马DeepSeek 超详细介绍

2025/02/09

标签云

成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体110233

@2022 All Rights Reserved

浙ICP备19035174号-6 技术支持：千寻网络

0

0

分享

请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索