GPT-4没通过图灵测试！60年前老AI击败ChatGPT，人类胜率仅有63%-工信会

> 自媒体 > （AI）人工智能 > GPT-4没通过图灵测试！60年前老AI击败ChatGPT，人类胜率仅有63%

GPT-4没通过图灵测试！60年前老AI击败ChatGPT，人类胜率仅有63%

来源：奇妙星辰Cq9

2023-12-07 15:51:53

427

管理

机器智能的极限挑战：GPT-4在图灵测试中败给了60年前的ELIZ

转眼至今日，GPT-4以其强大的多任务执行能力和复杂语境应对被誉为「地表最强」AI模型。然而，在UCSD团队组织的图灵测试中，情况发生了戏剧性逆转。该实验涉及25个不同提示设计（Language Model Witness），旨在模拟真实对话场景。这些提示包含拼写错误、语法变化和人格建议等元素，挑战AI系统回应用户查询时保持高度逼真度。

令人震惊地是，在此次测试中，ELIZA显示出意想不到的韧性和适应性，其成功率达到27%，超过了GPT-4在任何提示下得到的最高成功率41%。即便是比较新一代GPT-3.5和ELIZA时，后者同样表现出色。这说明提示设计对于图灵测试结果具有显著影响。

研究小组进一步分析审问者采取的策略，并将这些策略分类为闲聊、知识与推理检验、情境意识等几种类型。他们发现判定对象是否为AI或人类时考虑因素包括语言风格、社交情感以及知识内容等方面。

值得注意的是，尽管GPT-4展示出强大功能和进步，在本次图灵测试中却未能满足通过标准——也就是说其成功率未达到50%。研究指出良好设计的提示可能是关键因素之一。

那么ELIZA为何会有如此出色表现呢？分析认为原因可能包括它那稳健保守且反应迟钝无特定AI特征的回答方式；有些审问者甚至认为它表现太差劲可能是故意不合作倾向强烈的人类参与者。

此外，文章提醒我们实验结果可能存在偏差：人类参与者表现被低估而AI系统表现被高估。这种偏见可能来源于测试结构和评判标准本身。

文章最后提出深刻反思：图灵测试并非衡量智能有效手段；审问者所持先入为主观念以及他们对AI能力范围内高阶推理使用可能导致判断扭曲。

总体来看，UCSD团队公布了详细实验设计、精确数据统计和深入洞察分析，并通过他们新近发布结果揭示了图灵测试背后复杂性质以及在不同条件下对话模型展现出来认知界限。这份报告不仅折射出AI技术发展速度之快速变幻无常，更重要地启示我们重新思考如何评价和定义机器智慧水平。

赏礼

赏钱

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

GPT-4没通过图灵测试！60年前老AI击败ChatGPT，人类胜率仅有63%

2023-12-07 15:54

GPT-4没通过图灵测试！60年前老AI击败ChatGPT，人类胜率仅有63%

2023-12-07 15:50