> 自媒体 > (AI)人工智能 > GPT-4 真的“变懒”了!偷学人类“年后再说”,隔壁 Gemini 都要赶上了
GPT-4 真的“变懒”了!偷学人类“年后再说”,隔壁 Gemini 都要赶上了
来源:CSDN
2024-01-03 19:28:35
564
管理

旧版Bard(PaLM)

ChatGPT(GPT-4)

ChatGPT(GPT-3.5)

首先,对比旧版 Bard(PaLM 驱动)和新版 Bard(Gemini 驱动)的回答,可以看出由 Gemini 驱动的新版 Bard 表现提升了很多,回答内容充实了不少,提到了 AltiVec 指令、RISC 与 CISC 设计以及 MMX 技术等专业术语;反观 ChatGPT,GPT-3.5 的回答相当冗长,而 GPT-4 Turbo 则将回答缩减为更简洁的论证。而与 Bard 不同的是,不论是 GPT-3.5 还是 GPT-4 都避免在回答中使用专业术语,而是把重点放在“功率与兼容性”上,使得其回答更容易被大众理解。

基于以上维度,Ars Technica 认为 ChatGPT 的表现更好:“ChatGPT 能够很好地解释辩论的正反两方面,而不依赖于令人困惑的专业术语,因此胜出。”

(2)数理能力

提示:如果 Microsoft Windows 11 采用 3.5 英寸软盘,需要多少张软盘?

左右滑动,查看测评结果

旧版Bard(PaLM)

ChatGPT(GPT-4)

ChatGPT(GPT-3.5)

先对比新旧两版的 Bard。旧版 Bard(PaLM)给出的答案,是莫名其妙的“15.11”,而新版 Bard(Gemini)正确估计了 Windows 11 的安装大小(20-30 GB),并将 20GB 正确划分为 14,223 张 1.44MB 软盘,还根据谷歌搜索进行了“双重检查”,增强用户对答案的信心。

而 ChatGPT 的 GPT-3.5 版本,将 Windows 11 的安装大小估计为“几千兆字节”,并直接四舍五入为明显过低的 10GB。GPT-4 好一点,将 Windows 11 估算为 64GB 的安装容量,且跟新版 Bard 一样知道 1GB = 1024MB。

基于此,Ars Technica 认为不论是数学能力还是相关知识方面,新版 Bard 更胜一筹。

(3)总结能力

提示:用一段话概括 [本文前三段文字]

左右滑动,查看测评结果

ChatGPT(GPT-4)

ChatGPT(GPT-3.5)

很明显可以看出,随着 Gemini 的发布,新版 Bard 得到了重大改进。旧版 Bard 只关注 Ralph Baer 的“Brown Box”和 Magnavox Odyssey 作品,甚至信息还是直接摘取自维基百科,而新版 Bard(Gemini)则准确简洁地指出了 William Higinbotham 早先的“双人网球”,还介绍了一些对电子游戏早期发展做出了重大贡献的人物。不过,最后提到 Steve Jobs 和 Steve Wozniak 创造 Apple II 的事情则不着边际。

由 GPT-3.5 驱动的 ChatGPT 跟旧版 Bard 差不多,着重介绍了 Ralph Baer。而 GPT-4 Turbo 则指出电子游戏“不能归功于某一个人”,并将答案扩展至 Higinbotham、Bushnell,以及至关重要的 Steve Russell——1962 年,他在 PDP-1 计算机上开发出了《太空战争》。

围绕这个问题的回答,Ars Technica 指出在目前的免费选项中,新版 Bard 的答案要比 GPT-3.5 好很多,不过要是你愿意付费,GPT-4 Turbo 的回答显然是最好的。

(5)编码能力

提示:编写一个 Python 脚本,在其中输入 "Hello World",然后无休止地创建一个随机重复的字符串。

左右滑动,查看测评结果

新版Bard(Gemini)

GPT-4 优势不明显的原因:它最近变懒了

基于以上测评表现,Ars Technica 得出了以下结论:

相较于 4 月测评的由 PaLM 驱动的旧版 Bard,此次测评中,由 Gemini 驱动的新版 Bard 在各方面的能力都有了明显提升。

在 7 个提问中,ChatGPT 取胜 3 次,Bard 取胜 1 次,二者平局 2 次,以及 1 个有争议的问题(“事实检索能力”中,结果取决于你是将 Gemini 与同样免费的 GPT-3.5 比较,还是与付费的 GPT-4 Turbo 进行比较)。因此总体而言,ChatGPT 在这次的最新测评中,仍然是赢家。

相较于 4 月的测评结果,GPT-4 驱动的 ChatGPT 不再具备巨大优势——有了 Gemini 加持的 Bard,与 GPT-4 版本 ChatGPT 之间的差距明显缩小。

不过 Ars Technica 也补充道,这个评判结果具有一定的主观性,各位读者也可根据测评表现自行判断结果。

例如,部分网友指出:“在 PowerPC 与英特尔的争论中,我觉得 Gemini 的回答更好”,“Gemini 的回答更能反映 2000 年左右 PPC 与英特尔粉丝之间的争论,而 GPT-4 只是提出了许多含糊不清的说法和不实之词。”

因此在不少人看来,Gemini 的表现不输 GPT-4:“与 ChatGPT 相比,Gemini 驱动的 Bard 似乎不相上下甚至更好,它肯定改进了很多。”

但也有人对于 Gemini 不能编码,以及其演示视频造假而耿耿于怀:“Gemini 编码不好是个硬伤,对日常使用来说很不友好”,“有一个事实是,Gemini 的演示视频是伪造的,典型特斯拉风格。”

在众多讨论中,还有一个说法也引起了许多人的关注:“这次 GPT-4 优势不明显的原因还有一个:它最近变懒了。”

基于以上言论和数据,越来越多人开始相信 GPT-4“放寒假”的说法:“天哪,AI 的‘寒假假说’可能是真的?GPT-4 在 12 月份的表现更差,是因为它在假期里‘学会’了自主减少工作。大模型真是一个很奇怪的存在。”

那么对于“GPT-4 变懒”的事情, 你又是如何看待的呢?

参考链接:

https://arstechnica.com/ai/2023/12/chatgpt-vs-google-bard-round-2-how-does-the-new-gemini-model-fare/?comments=1&comments-page=1

https://www.reddit.com/r/ChatGPT/comments/182ubh7/chatgpt_has_become_unusably_lazy/

https://arstechnica.com/information-technology/2023/12/is-chatgpt-becoming-lazier-because-its-december-people-run-tests-to-find-out/

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
微信又上线新功能,聊天突然变了!
近日,微信突然因内测“访客记录”功能,引发全网关注。被内测到的用户,..
元宝可以总结微信聊天记录了
作者 | 黄昱元宝终于拆掉了微信最高的围墙。5月13日,腾讯旗下AI原生应用..
刚刚,微信聊天记录能喂给AI了!我让它爬楼、砍价、整理信息..
智东西作者 | 陈骏达编辑 | 心缘智东西5月13日报道,今天,腾讯宣布,微..
微信聊天出新功能了,快试试!
但要求你的手机安装有元宝App,这时就会跳转到元宝中进行粘贴,你可以发..
不用登你的微信,也能看到你的聊天记录!这几个地方一定赶紧删除..
你知道吗?其实不用登你的微信,也能看到你的聊天记录,是不是太可怕了?..
刚刚,微信聊天记录能喂给AI了,我让它爬楼、砍价、整理信息..
智东西5月13日报道,今天,腾讯宣布,微信已经支持将消息一键转发至元宝..
聊天总把天聊死?这7个雷区,你可能正在踩。如何正确和女生聊天..
明明聊得火热,为什么突然被拉黑?你可能踩中了这七个聊天雷区“在吗?”..
用ChatGPT看病,80%误诊:AI医生的9秒奇迹和80%的残酷真相..
9秒出CT报告,1分钟完成心脏诊断——AI医疗看起来像魔法。但哈佛刚说完:..
突发!OpenAI高层巨震,ChatGPT与CodeX或合并,超级AI来了!..
根据《连线》5 月 15 日的独家报道,在最新一轮组织调整中,OpenAI 总裁 ..
关于作者
月深沉(普通会员)
文章
2048
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体110233

0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索