实锤GPT-4真变笨了：3个月内数学能力雪崩式下降，代码能力也变差-工信会

> 自媒体 > （AI）人工智能 > 实锤GPT-4真变笨了：3个月内数学能力雪崩式下降，代码能力也变差

实锤GPT-4真变笨了：3个月内数学能力雪崩式下降，代码能力也变差

来源：机器之心Pro

2023-07-25 12:03:08

500

管理

机器之心报道

编辑：Panda

前些天，有不少用户抱怨 GPT-4 变笨了，但到底变得有多笨呢？

近日，来自斯坦福、UC Berkeley 的一篇 arXiv 预印本论文给出了对这一问题的定量实验结果并公布了相关评估和响应数据。

在论文公布不久，这篇研究就引起了大家广泛的关注与讨论，很多网友都认同论文阐述的结果。

当然，任何事物都有两面性。也有网友并不认同论文结论，发布了一篇质疑文章认为这篇论文的结果过于简单化了，「虽然研究结果很有趣，但有些方法值得怀疑。」

图 4：代码生成：(a) 整体表现的变化情况。(b) 一个示例查询和对应的响应情况。GPT-4 和 GPT-3.5 的三月版都遵照用户指示（the code only / 只生成代码），因此生成结果都是可直接执行的代码。但它们的六月版却会在代码片段前后添加额外的三引号 “‘，导致代码无法执行。

为什么可直接执行的生成结果数量变少了？一个可能的解释是六月版总是会在生成结果中添加额外的非代码文本。

图 4 (b) 给出了一个示例。GPT-4 的三月版和六月版的生成结果基本一致，但有两处不同，一是六月版在代码段前后添加了 “‘python 和 “‘。二是六月版生成了一些注释。变化虽不大，但额外的三引号却让代码变得无法直接执行。如果有人将 LLM 生成的代码整合在更大的软件开发流程中，那么这个问题还是挺严重的。

视觉推理：少量提升

如下图 5 (a) 所示，GPT-4 和 GPT-3.5 的性能提升都很小。但是，它们的三月版和六月版在 90% 的视觉谜题查询上的生成结果都一样。这些服务的整体性能也很低：GPT-4 为 27.4%、GPT-3.5 为 12.2%。

图 5：视觉推理：(a) 整体表现。从三月版到六月版，GPT-4 和 GPT-3.5 的整体表现都有大约 2% 的提升。生成长度大致保持不变。(b) 一个示例查询和对应的响应情况。

需要指出，更新版的 LLM 并不总是能生成更好的结果。事实上，尽管 GPT-4 的整体表现变得更好了，但六月版却会在三月版答对的问题上犯错。图 5 (b) 就是这样一个例证。虽然整体上 GPT-4 的六月版都表现更好，但这个特定案例却不是这样。其三月版给出了正确的网格，六月版却没有。这表明我们需要细粒度地监控模型的性能变化，尤其是对于关键的应用。

更多评估细节请查看原论文。

赏礼

赏钱

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

ChatGPT将在下周推出安卓版本，现已开放预注册

2023-07-26 12:04

终极“揭秘”：GPT-4模型架构、训练成本、数据集信息被扒出来了

2023-07-25 12:01