> 自媒体 > (AI)人工智能 > GPT-4推理更像人了!中国科学院提出思维传播,即插即用
GPT-4推理更像人了!中国科学院提出思维传播,即插即用
来源:新智元
2023-10-31 14:00:53
370
管理

编辑:桃子 好困

【新智元导读】大模型推理难题攻克了?中国科学院联手耶鲁大学的研究人员提出了全新框架「思维传播」,让大模型能够像人类一样类比思考。

如今,GPT-4、PaLM等巨型神经网络模型横空出世,已经展现出惊人的少样本学习能力。

只需给出简单提示,它们就能进行文本推理、编写故事、回答问题、编程......

然鹅,LLM在复杂、多步推理任务上却常常败给人类,且苦苦挣扎无果。

对此,中国科学院和耶鲁大学的研究人员提出了一种「思维传播」(Thought Propagation)新框架,能够通过「类比思维」增强LLM的推理。

LLM多步推理,败给人类

显而易见,LLM擅长根据提示进行基本推理,但在处理复杂的多步骤问题时仍有困难,比如优化、规划。

反观人类,他们会汲取类似经验中的直觉来解决新问题。

大模型无法做到这点,是由其固有的局限性决定的。

因为LLM的知识完全来自于训练数据中的模式,无法真正理解语言或概念。因此,作为统计模型,它们很难进行复杂的组合泛化。

具体来说,TP包括了三个阶段:

1. 提出类似问题:LLM通过提示生成一组与输入问题有相似之处的类似问题。这将引导模型检索潜在的相关先前经验。

2. 解决类似问题:通过现有的提示技术,如CoT,让LLM解决每个类似的问题。

3. 汇总解决方案:有2种不同的途径——根据类比解决方案,直接推断出输入问题的新解决方案;通过比较输入问题的类比解决方案,推导出高级计划或策略。

这样一来,大模型就可以重用先前的经验和启发式方法,还可以将其初始推理与类比解决方案进行交叉检查,以完善这些解决方案。

值得一提的是,「思维传播」与模型无关,可以在任何提示方法的基础上进行单个问题解决步骤。

这一方法关键的新颖之处在于,激发LLM类比思维,以引导复杂的推理过程。

「思维传播」究竟能让LLM多像人类,还得实操结果来说话。

中国科学院和耶鲁的研究人员在3个任务中进行了评估:

- 最短路径推理:需要在图中找到节点之间的最佳路径需要全局规划和搜索。即使在简单的图上,标准技术也会失败。

- 创意写作:生成连贯、有创意的故事是一个开放式的挑战。当给出高层次的大纲提示时,LLM通常会失去一致性或逻辑性。

- LLM智能体规划:与文本环境交互的LLM智能体与长期战略方面举步维艰。它们的计划经常会出现「漂移」或陷入循环。

最短路径推理

最短路径推理任务中,现有的方法推理遇到的问题无法解决。

虽然(a)中的图非常简单,但由于推理从0开始,这些方法只能让LLM找到次优解(b,c),甚至重复访问中间节点(d)。

同时,研究人员还进一步研究了TP层数对最短路径任务复杂性和性能的影响。

在不同设置下,1层TP的token成本与ToT类似。但是,1层TP在寻找最优最短路径方面,已经取得了非常有竞争力的性能。

此外,与0层TP(IO)相比,1层TP的性能增益也非常显著。图5 (a) 显示了2层TP的token成本增加。

创意写作

下表2显示了TP和基线在GPT-3.5和GPT-4中的表现。在一致性上,TP都超过了基线。另外,在用户研究中,TP在创意写作中人类偏好提高了13%。

LLM智能体规划

在第三个任务评估中,研究人员使用ALFWorld游戏套件,在134个环境中实例化LLM智能体规划任务。

TP在LLM智能体规划中任务完成率提高15%。这表明,在完成类似任务时,对成功规划的反思TP具有优越性。

俞俊驰是中国科学院自动化研究所的四年级博士生,导师是赫然教授。

此前,他曾在腾讯人工智能实验室实习,并与Tingyang Xu博士、Yu Rong博士、Yatao Bian博士和Junzhou Huang教授共事。目前,他是耶鲁大学计算机科学系的交流生,师从Rex Ying教授。

他的目标是开发具有良好可解释性和可移植性的可信图学习(TwGL)方法,并探索其在生物化学方面的应用。

参考资料:

https://arxiv.org/abs/2310.03965

https://notes.aimodels.fyi/thought-propagation-llm-analogy-reasoning/

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
微信又上线新功能,聊天突然变了!
近日,微信突然因内测“访客记录”功能,引发全网关注。被内测到的用户,..
元宝可以总结微信聊天记录了
作者 | 黄昱元宝终于拆掉了微信最高的围墙。5月13日,腾讯旗下AI原生应用..
刚刚,微信聊天记录能喂给AI了!我让它爬楼、砍价、整理信息..
智东西作者 | 陈骏达编辑 | 心缘智东西5月13日报道,今天,腾讯宣布,微..
微信聊天出新功能了,快试试!
但要求你的手机安装有元宝App,这时就会跳转到元宝中进行粘贴,你可以发..
不用登你的微信,也能看到你的聊天记录!这几个地方一定赶紧删除..
你知道吗?其实不用登你的微信,也能看到你的聊天记录,是不是太可怕了?..
刚刚,微信聊天记录能喂给AI了,我让它爬楼、砍价、整理信息..
智东西5月13日报道,今天,腾讯宣布,微信已经支持将消息一键转发至元宝..
聊天总把天聊死?这7个雷区,你可能正在踩。如何正确和女生聊天..
明明聊得火热,为什么突然被拉黑?你可能踩中了这七个聊天雷区“在吗?”..
用ChatGPT看病,80%误诊:AI医生的9秒奇迹和80%的残酷真相..
9秒出CT报告,1分钟完成心脏诊断——AI医疗看起来像魔法。但哈佛刚说完:..
突发!OpenAI高层巨震,ChatGPT与CodeX或合并,超级AI来了!..
根据《连线》5 月 15 日的独家报道,在最新一轮组织调整中,OpenAI 总裁 ..
关于作者
泡沫人生(普通会员)
文章
1988
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体110233

0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索