> 自媒体 > (AI)人工智能 > GPT-4不知道自己错了, LLM新缺陷曝光,自我纠正成功率仅1%
GPT-4不知道自己错了, LLM新缺陷曝光,自我纠正成功率仅1%
来源:新智元
2023-11-22 14:37:51
560
管理

编辑:桃子 润

【新智元导读】GPT-4根本不知道自己犯错?最新研究发现,LLM在推理任务中,自我纠正后根本无法挽救性能变差,引AI大佬LeCun马库斯围观。

大模型又被爆出重大缺陷,引得LeCun和马库斯两位大佬同时转发关注!

简单来说,就是LLM在推理任务中,无法通过自我纠正的形式来改进输出,除非LLM在自我纠正的过程中已经知道了正确答案。

由ASU研究人员发表的两篇论文,驳斥了之前很多研究提出的方法「自我纠正」——让大模型对自己的输出的结果进行自我纠正,就能提高模型的输出质量。

论文地址:https://arxiv.org/abs/2310.12397

https://arxiv.org/abs/2310.01798

接下来,就具体来看看这两篇最新论文。

GPT-4「自我纠正」,输出结果反而更差

第一篇论文针对GPT-4进行研究,让GPT-4对图形着色问题提供解决方案,然后让GPT-4对于自己提出方案进行「自我纠正」。

同时,作者再引入一个外部的评估系统对GPT-4的直接输出,和经过了「自我纠正」循环之后的输出进行评价。

而且,研究人员发现,真正能提高输出准确性的不是LLM的「自我纠正」,而是外部独立验证器的反馈。

归根结底,还是在于LLM没有办法进行独立的验证,必须依赖外部的验证器给出的「正确答案」,才能有效地进行「自我纠正」。

「着色问题」表现不佳,LLM无法独立验证正确答案

研究设计框架

「着色问题」是非常经典的推理问题,即使难度不大,答案也足够多样性,而且答案的正确性很容易进行验证。

多样性的结果使得LLM的训练数据很难覆盖全,尽量避免了LLM的训练数据被污染的可能。

这些原因使得「着色问题」很适合用来研究LLM的推理能力,也很方便用来研究LLM在推理中「自我纠正」的能力。

研究人员构建了自己的数据集,使用GrinPy2来处理常见的图操作。每个图都是使用Erdos-Rényi方法( ˝p = 0.4)构造的。

一旦找到正确的答案,它就会被编译成标准的DIMACS格式,并附加上一个包含其预计算的色数(chromatic number)的注释。

对于接下来的实验,研究人员生成了100个实例,每个实例平均有24条边,分布在从10到17的节点数范围内——这一分布是因为经验显示,它是一个表现足够多变的范围。

研究人员使用的图例如下图1所示,这个流程包括LLM的第一次回复、该回复的返回提示(backprompt)以及最终正确的图色方案。

总的来说,这项研究的系统调查提供了初步证据,对于LLM作为迭代、自我批评框架内规划任务验证者的有效性提出质疑。

作者介绍

Subbarao Kambhampati

Subbarao Kambhampati是亚利桑那州立大学计算机科学教授。Kambhampati研究规划和决策中的基本问题,特别是受人类感知人工智能系统挑战的推动。

参考资料:

https://twitter.com/rao2z/status/1715800819239678013

https://twitter.com/GaryMarcus/status/1715804178470387736

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
新车|2030年前仍继续提供,宝马M车型未来或将取消手动挡..
文:懂车帝原创 杨凯文[懂车帝原创 产品] 日前,据德国媒体AMS报道,宝马..
聚焦可持续发展与科技创新领域,宝马集团与宁德时代签署合作谅解备忘录..
2月25日,宝马集团董事长齐普策随德国总理默茨访华。全球经济格局正经历..
600匹马力5系!国内到店实拍宝石青宝马i5 M60
601马力 3.8秒破百,M性能与豪华质感拉满,纯电旗舰气场无敌。下面这组到..
谁敢把家里的奔驰宝马全卖了换它?三千公里长途实测出答案..
谁能想到,有人竟把家里的奔驰、宝马、英菲尼迪全卖了,一股脑换成零跑?..
宝马CEO最新涉华表态:对中国庞大市场与创新潜力视而不见的人,正错失巨大..
来源:环球网 【环球网报道 记者 姜蔼玲】据路透社报道,宝马集团首席执..
默茨专机抵京,第一道难关出现!宝马CEO通知政府,中方有言在先..
这两天默茨的“访问”可以看做是一次硬碰硬的试算:对内对外都必须强硬,..
默茨专机抵京,第一道难关出现!宝马公开喊话政府,中方亮明底线..
专机引擎的轰鸣声刚在北京上空消散,一场没有硝烟的博弈,已然拉开序幕。..
假期将尽,与宝马“的卢”合影,专治各种“过不去”..
假期最后一天还是来了 明天是节后第一个工作日 此刻的你是否已收拾心情做..
宝马接入中国AI技术,德企为何深耕本土化?
德企深耕本土化是为了抓住中国市场的巨大潜力和创新优势,以维持全球竞争..
关于作者
经典好看视频..(普通会员)
文章
1879
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体105600

0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索