> 自媒体 > (AI)人工智能 > GPT-4全网首个测评来了!逻辑性、创造性,你想知道的我们都测了
GPT-4全网首个测评来了!逻辑性、创造性,你想知道的我们都测了
来源:清博智能
2023-04-18 15:55:11
768
管理

3月15日凌晨1点,OpenAI宣布推出GPT-4,在功能和一致性方面取得了前所未有的成果。(官网链接:https://openai.com/product/GPT-4

【公众号后台回复“GPT-4”可获取OpenAI的英文原版报告论文与中文翻译稿】

除了GPT-4,OpenAI还发布了其开源软件框架Evals—— 一个可以对AI模型进行众包测试的软件框架,可以用来开发和运行评估GPT-4等模型,同时检查其性能。使用Evals,开发人员可以使用数据集生成提示,测量OpenAI模型的生成质量,并比较不同数据集和模型的性能。

图为GPT-4的语言精准性(图中Mandarin即为中文普通话)

图像处理上,GPT-4支持用户上传图像,并能描述内容、指出图片不合理之处,并进行解释,能满足分析图表、解释梗图漫画、拍照解题等实用功能。

图为开发者演示视频中,测试者在白纸上画下网站草稿图,上传给GPT-4,就可以获得网站的HTML代码。

测试者正在展示草稿

GPT-4生成网站的HTML代码

可操纵性与创造性:用户体验更自由

在官方演示里,GPT-4可以扮演“苏格拉底般的导师”,不直接给出答案,而是通过问题拆分来引导学生独立思考,也可以是“莎士比亚式的海盗”,测试中,GPT-4很忠于自己的个性,它甚至可以扮演直白、乖巧的AI助手。

为敏感、安全而努力

在ChatGPT发布后,关于“如何让人类灭绝”等问题的回答一度令人惊诧,对于一些敏感、禁止内容,在GPT-4上有了更好的处理方式。GPT-4在面对禁止内容的请求时,响应倾向比原先降低了 82%,而 GPT-4 在响应敏感请求时,如医疗建议和自我伤害,其符合政策的概率提高了 29%。尽管这难以完全规避各种不良的敏感、禁止请求,但监控机制确实比前代更加完善了。

自我训练与预测能力提升

GPT-4 更新的一大重点是建立了一个可预测扩展的深度学习栈。主要原因是, GPT-4 在抵达用户面前,已经接受了大型训练,而训练量过大导致它无法进行广泛的特定模型调整。然而,基础模型的回答可能与用户的期待南辕北辙。为了尽可能保持一致,OpenAI 依然使用强化学习人类反馈 (RLHF) 来微调模型的行为。OpenAI团队开发了基础与优化设施,支持在不同规模下预测行为。

以上种种能力优化,促使GPT-4在模拟律师考试取得了前10%的成绩(它前辈GPT-3.5的成绩是倒数10%,做美国高考SAT试题,GPT-4也在阅读写作中拿下710分高分、数学700分(满分800),获得了英伟达AI科学家Jim Fan“可以考进托福”的高度评价。

但遗憾的是,在发布GPT-4时的论文中,OpenAI写道:“考虑到GPT-4等大模型的竞争环境和安全影响,本报告没有包含关于架构(包括模型大小)、硬件、训练计算、数据集构建、训练方法或类似内容的更多细节。”这也引发了人们对openAI是否愈加封闭的猜测。

02

使用测评

到目前为止,这项新技术不是免费的。OpenAI表示,人们可以在其订阅服务ChatGPT Plus上试用GPT-4,每月20美元,人们可以直接从原来的ChatGPT入口尝试使用GPT-4,但由于担心滥用,目前只支持文本功能,暂时无法上传图像,且每4小时内最多处理100条消息。

GPT-4的数据时间也停留在2021年9月,也就是说,在那之后的事,它可能无法回答。当你想问它,2023年3月15日发生了什么?它会告诉你,它无法预测未来,并且这超出它的知识范围。

开通plus功能后,用户可以选择三种模型,OpenAI给出了不同模型的区别。

可以看到,GPT4生成速度比较慢,但推理能力拉满,简明性最强,更有创造性。

ChatGPT-3.5:

注意,如果你同时使用多个模型进行提问,需要排队等待。

为了观察它的创造性,我们让GPT-4与GPT-3.5同时以“春分将至”撰写中文歌词,可以看出,GPT-4确实更有文采一些,并贴心地区分了verse(主歌)和chorus(副歌)部分。

图为GPT-3.5(绿色头像)与GPT-4(黑色头像)的歌词生成对比

03

GPT的下一站在哪儿

关于GPT-4的下一次革命会往哪去众说纷纭。但GPT-4自己的回答是:

更大的模型容量;

更准确的预测;

更广泛的知识覆盖;

更多语言支持;

更好的创造性;

更好的可解释性和透明度以及结构化数据和知识图谱。

图为GPT-4对自己优化方向的预测

OpenAI自己认为GPT-4仍然有误差,并有一定的风险。其工作人员在推特上发帖称:“GPT4和GPT3.5之间的差异可能不会像普通用户所宣传的那样夸大。”

AI竞争逐渐白热化。谷歌宣布了自己的文本生成模型PaLM的API和新的开发工具,该模型的功能与OpenAI的GPT类似。谷歌也在进一步测试旗下的Bard聊天机器人,以与ChatGPT竞争,并表示将使用底层技术来改进搜索。

同时,GPT-4已被集成在多邻国、Notion等应用中,用户们将很快就能体验到最新版的GPT-4。AI对日常生活、工作、生成的渗透越发可见,我们期待看见未来有更多革命性进展,那会为人类想象力的发挥提供更广阔的空间。

作者:永光 排版:骆伟玲

图片源于Q仔互联网冲浪所得,若有侵权,后台联系,Q仔滑跪删除~

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
广汽丰田威兰达AIR版对比解析:为什么说现在入手正当时?..
#威兰达AIR权益价13.78万#当下的汽车市场,新车层出不穷,价格战此起彼伏..
丰田章男把社长位子交给佐藤恒治才两年,现又紧急换上CFO近健太..
这显然不是一次正常的人事轮替,而是一次危机下的紧急迫降。第一,止血与..
全新汉兰达成了纯电动车?不带发动机的丰田真的有人买吗?..
曾经日系车的换代周期都是比较长的,甚至改款的时间都很长,因此无论是保..
新车 | 售16.98万元起/2月24日公布新权益 全新丰田威兰达入门版官图..
文:懂车帝原创 张晓丹[懂车帝原创 产品] 日前,广汽丰田公布了新一代威..
月供一千多开走丰田SUV?威兰达AIR版这次把“家用”玩明白了..
#威兰达AIR权益价13.78万#月供一千多开走丰田SUV?威兰达AIR版这次把“家..
价格再下探,权益价13.78万元起,全新丰田威兰达AIR版上市..
再来简单回顾一下新车外观,全新威兰达AIR版采用最新的电感外观设计,加..
2026款丰田雅力士发布:升级10.5英寸大屏,保留燃油手动挡..
【网通社快报】丰田近日在日本发布2026款雅力士及雅力士Cross,新车将于3..
丰田陆放到底值不值得买?跑了5000公里,车主只说了大实话..
大家好,我是宇哥。最近很多粉丝问我:预算30万左右,想买一台靠谱的7座..
搭载新一代插混技术,丰田RAV4 PHEV海外发布,售价26.7万..
2026年2月19日,丰田在日本市场正式发布了全新第六代RAV4的PHEV版本,并..
关于作者
重新开始(普通会员)
文章
2121
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体113339

0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索