机器之心报道
编辑:Panda
前些天,有不少用户抱怨 GPT-4 变笨了,但到底变得有多笨呢?
近日,来自斯坦福、UC Berkeley 的一篇 arXiv 预印本论文给出了对这一问题的定量实验结果并公布了相关评估和响应数据。
在论文公布不久,这篇研究就引起了大家广泛的关注与讨论,很多网友都认同论文阐述的结果。
当然,任何事物都有两面性。也有网友并不认同论文结论,发布了一篇质疑文章认为这篇论文的结果过于简单化了,「虽然研究结果很有趣,但有些方法值得怀疑。」

图 4:代码生成:(a) 整体表现的变化情况。(b) 一个示例查询和对应的响应情况。GPT-4 和 GPT-3.5 的三月版都遵照用户指示(the code only / 只生成代码),因此生成结果都是可直接执行的代码。但它们的六月版却会在代码片段前后添加额外的三引号 “‘,导致代码无法执行。
为什么可直接执行的生成结果数量变少了?一个可能的解释是六月版总是会在生成结果中添加额外的非代码文本。
图 4 (b) 给出了一个示例。GPT-4 的三月版和六月版的生成结果基本一致,但有两处不同,一是六月版在代码段前后添加了 “‘python 和 “‘。二是六月版生成了一些注释。变化虽不大,但额外的三引号却让代码变得无法直接执行。如果有人将 LLM 生成的代码整合在更大的软件开发流程中,那么这个问题还是挺严重的。
视觉推理:少量提升
如下图 5 (a) 所示,GPT-4 和 GPT-3.5 的性能提升都很小。但是,它们的三月版和六月版在 90% 的视觉谜题查询上的生成结果都一样。这些服务的整体性能也很低:GPT-4 为 27.4%、GPT-3.5 为 12.2%。

图 5:视觉推理:(a) 整体表现。从三月版到六月版,GPT-4 和 GPT-3.5 的整体表现都有大约 2% 的提升。生成长度大致保持不变。(b) 一个示例查询和对应的响应情况。
需要指出,更新版的 LLM 并不总是能生成更好的结果。事实上,尽管 GPT-4 的整体表现变得更好了,但六月版却会在三月版答对的问题上犯错。图 5 (b) 就是这样一个例证。虽然整体上 GPT-4 的六月版都表现更好,但这个特定案例却不是这样。其三月版给出了正确的网格,六月版却没有。这表明我们需要细粒度地监控模型的性能变化,尤其是对于关键的应用。
更多评估细节请查看原论文。
相关文章









猜你喜欢
成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体105040